运维监控的终极秘籍，盘它！

发布时间：2019-05-06 14:22:52 所属栏目：教程来源：京东云

导读：一般来说，白盒与黑盒分别从内部和外部来监控系统的运行状况，例如机器存活、CPU内存使用率、业务日志、JMX等监控都属于白盒监控，而外部端口探活、HTTP探测以及端到端功能监控等则属于黑盒监控的范畴。下面将主要从白盒监控的采集入手，解答上面关于新系

更为通俗的讲，饱和度可以理解为服务的利用率，可以代表系统承受的压力。所以饱和度与流量息息相关，流量的上升一般也会导致饱和度的上升。通常情况下，每种业务系统都应该有各自的饱和度指标。在很多业务系统中，消息队列长度是一个比较重要的饱和度指标，除此之外CPU、内存、磁盘、网络等系统资源利用率也可以作为饱和度的一种体现方式。

基础监控：CPU、内存、磁盘和网络利用率、内存堆栈利用率、文件句柄数、TCP连接数等

业务监控：

基础功能单元使用率，大多数系统对其基础的功能单元都有其处理能力的上限，接近或达到该上限时可能会导致服务的错误、延迟增大。例如HDFS的Block数量上升会导致NameNode堆内存使用率上升，Kafka的Topics和Partitions的数量、Zookeeper的node数的上升都会对系统产生压力
消息队列长度，不少系统采用消息队列存放待处理数据，所以消息队列长度在一定程度上可以代表系统的繁忙程度。如ElasticSearch、HDFS等都有队列长度相关指标可供采集

总结

以上总结了常见的监控指标采集方法，以及四个黄金指标所包含的常见内容。在实际工作中，不同的监控系统的设计多种多样，没有统一标准，并且不同的业务系统通常也有着特定的监控采集方法和不同的黄金指标定义，具体如何采集监控指标和添加告警都需要我们针对不同系统特点灵活应对。

本期作者：葫芦瓜

京东云应用研发部

在前面的监控系列文章中，我们介绍了Kafka、Zookeeper、ElasticSearch、Hadoop以及电商平台等一系列开源软件和业务系统的监控实践。但通常情况下，线上业务一般是由众多开源或自研中间件加上层业务系统组成。而业务系统的复杂度会随着系统变更和新业务上线而发生快速增长。不断变化的业务环境下，新业务层出不穷。当面临一个新系统时，监控工作应该如何开展?

【本文为51CTO专栏作者“京东云”的原创稿件，转载请通过作者微信公众号JD-jcloud获取授权】

戳这里，看该作者更多好文

【编辑推荐】

如何从零搭建一个自动化运维体系？
深度 | 掌握Nginx监控运维，这一篇足矣！
能力与态度：以阿里云PolarDB为例
DBA的大救星：数据库智能运维探索与实践
让前端监控数据采集更高效

【责任编辑：武晓燕 TEL：（010）68476606】
点赞 0

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页

新萝卜家园xp sp3 纯净	xp变雨林木风win7 xp安
教您怎样解决office 2	ISO文件如何安装,教您