加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 电商 > 正文

SRE系列教程 | 孙宇聪:来自Google的DevOps理念及实践(下)

发布时间:2021-01-14 08:51:37 所属栏目:电商 来源:网络整理
导读:《SRE系列教程 | 孙宇聪:来自Google的DevOps理念及实践(下)》要点: 本文介绍了SRE系列教程 | 孙宇聪:来自Google的DevOps理念及实践(下),希望对您有用。如果有疑问,可以联系我们。 接下来聊一聊SRE的一些最佳实践,我认为Google做得比较好的几点. SRE

其实说到Google在这一点上,也有所谓的运动式演练.每年1、2月份都会组织一次运动式演练,整个公司所有部门都要参与.在这一个星期的时间里实际上公司是不干什么正经事的,所有人都想出各种各样的方法去测试或者去提高系统的可靠性.

ONCALL的正确姿势

刚才说的这种比较大的所谓实战演习,具体到工作的时候也有几个,就是我们的轮值制度值班.国内小公司都是没有轮值制度的,所有人手机24小时开机,随时打电话,随时得解决问题,一个箭步从被窝里爬出来,赶紧上去解决问题.实际上这跟Google不一样.Google的值班方式更多的是八个人每人值一个星期,值一个星期,剩下的时间你就自己去写程序、做工程研发.但是在这一个星期里,你必须能处理生产上发生的一切问题,这才是真正值班.只有你值班,别人休假了,这才是值班,否则就不叫休假,也不叫值班.所以Google有一个非常明确的规定,Google认为一个事故的正确处理或从发生到解决到事后解决需要六个小时,它认为需要六个小时.运维人员每次值班一般都是值十二个小时的班,大概从早上五点到晚上五点或者是从早上十点到晚上十点.因为它所有的值班都是由两地互相倒的,在美国有一部分,在欧洲有一部分,我们上班的时候我们值班,他们上班的时候他们值班.Google认为其实一天最多只能发生两次事件.不管什么样的系统问题,首先要保证一定要有足够的时间去处理问题.因为如果问题发生太频繁了,就像有些互联网公司,每天一上班这手机就开始“嗡嗡”在桌子上不停的响.一旦有一会儿不响了,就开始担心说这个监控系统到底是是不是坏了.

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读