加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

六个人如何运维一万台服务器?

发布时间:2017-12-19 11:44:09 所属栏目:建站 来源:51CTO技术栈
导读:副标题#e# 注:今天给大家分享的主题是“去哪儿网应用运维自动化演进之路”。自动化构建过程中所遇到的障碍以及我们是怎么样跨越这些障碍,我们遇到了哪些坑,以及怎么填平这些坑的过程。 我 2013 年加入去哪儿网,一直在从事运维开发工作。去哪儿网运维开

有了成本意识之后,我们可以更加合理的分配资源。比如有的应用本身不是很重要,还申请了特别多的机器,机器使用率也不高,拿到账单一看,这么一个不重要的应用竟然耗费这么大的账单,然后他们就会回收一部分资源。

目前我们也在不断的去接入各种各样的应用账单,比如说主机账单、网络带宽账单、监控报警、日志收集、大量的存储,还有计算资源账单,还有其他的一系列的账单,都会慢慢接入进来。

——————————

总结

——————————

最后做一下总结,在去哪儿网运维自动化历程中,我们经历了不同的阶段。

我们发现等应用扩大到一定规模的时候,需要运维平台化,自动的或者半自动的方式是非常耗费人力资源的,并且它也会大致发现一些错误甚至是故障。去哪儿网运维自动化也是做得非常不错的,怎么来体现?

我 2013 年入职,我入职的时候日常运维的人员大概有五六个,现在我们日常运维的人员仍然是六个,我们又推出了一个运维机器人,运维第七人。

我们还是保持在六人的状态,我们规模扩大了很多倍,从百台到万台,扩大了上百倍的规模,但是我们日常运维人员并没有增加,这是运维平台自动化带来的好处。

应用的可用性需要监控报警系统的保证,基本上在一个应用上线之前就会去把它所有关键的报警和监控架好,这样应用有问题的话就会迅速回滚或者去 debug 。

因为我们有完善的监控报警系统,所以去哪儿网的故障还算比较少的,平均来说一天也就两三个故障。

但是去哪儿网的故障和其他的故障可能不太一样,去哪儿网的故障要求比较苛刻,一次网络故障我们就会记录批次的故障。

比如 Watcher 的监控系统不出图了,超过 5 分钟了,我们可能会深究 P1 和 P2 的故障。

在这样的严格要求下,我们的故障也不会太高,我入职四年来,现在累计的故障数也就 3000 个左右。

六个人如何运维一万台服务器?

要保证我们整个运维生态的发展,我们需要将数据打通,打通需要给应用一个 ID,有了这个 ID 之后,我们就可以在各个运维系统和平台上共享数据,形成一个良性的生态循环。

作者:郑松宽,去哪儿网高级运维工程师。2013 年加入去哪儿网平台事业部,从事运维开发工作。工作中主要负责公司监控系统的开发,应用管理平台 Portal 的设计、开发和运维。

来源:转载自高效运维微信公众号,本文整理自  GOPS2017 北京站演讲《去哪儿网应用运维自动化演进之路》,高效运维社区致力于陪伴您共同成长。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读