加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 电商 > 正文

360 DoctorStarange:集预测、处理、关联和资源优化于一体的智能

发布时间:2021-01-11 14:10:09 所属栏目:电商 来源:网络整理
导读:《360 DoctorStarange:集预测、处理、关联和资源优化于一体的智能运维系统》要点: 本文介绍了360 DoctorStarange:集预测、处理、关联和资源优化于一体的智能运维系统,希望对您有用。如果有疑问,可以联系我们。 DoctorStarange背景介绍 为了保证360公司

360 DoctorStarange:集预测、处理、关联和资源优化于一体的智能运维系统

对于报警系统,我们主要找到正关联系数比较高的监控项,来合并一些报警之后,以最少的报警次数通知给用户.而对于实时报警分析,我们就可以通过输入一个波动项(原因),找到由此原因导致的其他波动的项(结果).

机器资源优化方案

面对不同业务的机器使用程度不同的问题,如何在不影响业务的同时,最大化机器资源利用率越来越成为业界比较关注的话题.我们不能使机器使用率过高,同样也不能使机器利用率过低,因此我们提出来一个“机器健康度”的概念,该值会反映出该机器过去一段时间内重要指标的使用情况.

首先,如何选择机器指标?在我们的方案中,我们选择cpu空闲率、内存使用率、网卡流入流量、网卡流出流量和状态连接数作为考量因素.之所以选择这几个指标是因为这几个监控项能够总体反映出机器的负载情况.

我们分别通过阈值的方法为这六个监控项设置上限和下限后,针对于每个监控项我们得到了四个值:历史数据的均值上限、历史数据的均值下限、预测数据的均值上限和预测数据的均值下限.

经过一个公式计算后,我们将得到一个-1到1区间内的一个值,即为健康度.如果该值越接近于-1,则说明机器比较空闲,如果该值越接近于1,表明机器使用率比较高.

下图说明了我们方案实施的具体流程:

健康度的概念毕竟是一个学术的东西,我们如何将此概念应用到实际的场景中呢?下面将介绍我们具体的应用场景:

  • 场景一 动态扩容和缩容

设置cron任务,比如每隔一周全量跑一次线上的机器,将有问题的机器录入到数据库中. 该数据库可以用于以下方面:

  1. 资源回收的依据(关注健康度值为-1的机器)
  2. 业务扩容的依据(关注健康度值为1的机器)
  • 场景二 机房物理拓扑(及时了解机房机器的健康状况)

场景二是我们针对于运维人员经常不能了解线上机房机器的运行状况做得一个拓扑图.在该拓扑图里面,运维人员可以更方便知道机器的总体运行状况.而我们可以以上面提到的“机器健康度”来表示每个机器现在的运行状态.如下图是我们一个简单机房的物理拓扑,在图中,白色的机器表示该机器运行良好,红色的机器表示该机器使用率过高,而灰色的机器则表示该机器使用率过低.

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读