加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

六个人如何运维一万台服务器?

发布时间:2017-12-19 11:44:09 所属栏目:建站 来源:51CTO技术栈
导读:副标题#e# 注:今天给大家分享的主题是“去哪儿网应用运维自动化演进之路”。自动化构建过程中所遇到的障碍以及我们是怎么样跨越这些障碍,我们遇到了哪些坑,以及怎么填平这些坑的过程。 我 2013 年加入去哪儿网,一直在从事运维开发工作。去哪儿网运维开

监控报警

下面看一下我们是怎么在运维平台去做监控报警的。作为一个互联网公司,保证 7x24 小时提供服务是一个最基本的要求,我们要怎么去保证 7x24 小时服务?

假如说系统有问题的时候,我们能够提前预警发现,等系统真正出现问题的时候,我们能够及时的发现。要保证这两点,我们就需要监控报警系统。

六个人如何运维一万台服务器?

去哪儿网的监控报警系统也是经历了很长时间的挣扎,刚开始每个部门都会维护自己的一套系统,刚开始是 Cacti 和 Nagios 这两个模块去搭建的,这样存在什么问题?

六个人如何运维一万台服务器?

  • Cacti 部署在单机上,不能横向拓展,导致性能比较差。假如单机出现异常甚至宕机,那我们的监控报警系统就完全不可用,所以这是一个非高可用的方案。

  • 每个部门都会维护一套自己的监控系统,甚至比较大的部门,像酒店机票这种大部门,他们可能会维护很多套,每一套都需要有专门的人员来运维,运维成本也非常高。

由于之前的系统没有很好的权限管理,这个系统只能由专门的人来负责,因为放开给其他人权限是比较危险的,可能有人不小心操作了什么,把报警删掉或者修改报警配置,所以只有把报警交给专人负责。

要定制一个报警监控沟通成本非常高,我们需要联系自己的相关负责人,然后再去报警配置。

开发人员觉得太麻烦了,干脆不做了,或者做得非常少,导致我们监控的面不够全,可能有一些异常甚至是故障都没有及时发现,效率是比较低下的。

怎么解决这个问题?我们做了一个公司级的统一监控报警平台 Watcher 。

报警平台有这样几个目标:

  • 高可用,一台机器或几台机器挂了,对我们没有影响或者影响很小。

  • (编辑:核心网)

    【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读