加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 电商 > 正文

运维全球最大游戏网站过程中积累的SRE经验

发布时间:2021-01-17 08:21:55 所属栏目:电商 来源:网络整理
导读:《运维全球最大游戏网站过程中积累的SRE经验》要点: 本文介绍了运维全球最大游戏网站过程中积累的SRE经验,希望对您有用。如果有疑问,可以联系我们。 作者 |:Ian Miell 翻译:大愚若智 作者 Ian Miell 通过本文探讨了自己在全球最大在线游戏网站的站点可

随着流程的推广,这个团队变的越来越安静,部分是因为有了专门的交流环节,逐渐开始推行远程工作,以及团队逐渐变的国际化,但同时也是因为大部分工作都变成了一种例行任务:遵循事件模型的指导,任务完成后或者有什么不理解的地方时,可以升级上报给更资深的人员.

自动化

通过这种方式对调查过程实现自动化,意味着还可以借助软件对其实现更高程度的自动化.

通过制定指标将不同工单连接到不同的事件模型,这也意味着我们知道需要将自己的精力专注在何处.我们编写了在后台对日志文件进行梳理的脚本,借此更快速简单地找出与代码有关的问题,同时通过自动化方式响应客户的需求(“此问题是应用管理员用户 XXX 所做的某项变更导致的”),此外还采取了一系列其他措施.

在这些自动化机制的支持下,我们基于 Pexpect 为自己构建了一个自动化工具:http://ianmiell.github.io/shutit/,不过这就是另一个故事了.基本上在适应这些后我们养成了持续改进的良性循环.

回归流程本身

准备好所有这些资产后,如何预防这些资源随着时间流逝而贬值?此时流程本身非常重要.

为确保一切可以继续平滑运转,我们制定了两个重要流程:验伤(Triage),以及事后审查.

流程 – 验伤

 

我们有 5%-10% 的时间花在验伤流程中.另外,为了确定最准确的流程,之前已经付出了大量时间,不过这些付出获得了巨大的回报:

将需要采取的操作数量精简为必须的最少步骤

将尽可能多的任务包含在验伤流程中,这种做法对我们有很大的吸引力,但更重要的是确保流程本身的价值而非完整性.任何不常执行的操作通常会被跳过,并从验伤流程中忽略掉.

专注于通过流程节约成本

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读