加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

5个系统管理员常用的警报和可视化工具

发布时间:2018-10-17 09:06:01 所属栏目:教程 来源:君子兰翻译
导读:【51CTO技术沙龙】10月27日,让我们共同探索AI场景化应用实现之道 这些开源工具帮助用户了解系统行为和输出,并为潜在问题提供警报。 你可能使用警报和可视化工具,为什么我要将它们作为可观察性工具进行讨论,特别是某些系统将可视化作为特征? 可观察性来
副标题[/!--empirenews.page--] 【51CTO技术沙龙】10月27日,让我们共同探索AI场景化应用实现之道

这些开源工具帮助用户了解系统行为和输出,并为潜在问题提供警报。

你可能使用警报和可视化工具,为什么我要将它们作为可观察性工具进行讨论,特别是某些系统将可视化作为特征?

可观察性来自控制理论,描述了我们根据其输入和输出理解系统的能力。本文重点介绍可观察性的输出组件。

警报和可视化工具分析系统的输出,并提供这些输出的结构化表示。警报基本上是对负系统输出的综合理解,并且可视化是消除用户理解的消歧结构化表示。

5个系统管理员常用的警报和可视化工具

一、常见警报和可视化类型

警报

让我们首先介绍哪些不是警报。如果人员响应者无法对问题采取任何措施,则不应发送警报。这包括发送给多个人的警报,只有少数人可以响应,或者系统中的每个异常都触发警报的情况。这导致警报疲劳并且接收器忽略特定介质内的所有警报,直到系统升级到尚未饱和的介质。

例如,如果运维每天从警报系统接收数百封电子邮件,该运维将很快忽略来自警报系统的所有电子邮件。只有当他或她遇到问题,由客户发送电子邮件或由老板打电话时,运维才会回复真实事件。在这种情况下,警报已失去其意义和用途。

警报不是一个恒定的信息流或状态更新。它们旨在传达系统无法自动恢复的问题,并且它们仅发送给最有可能恢复系统的个人。超出此定义的所有内容都不是警报,只会损害员工和公司文化。

每个人都有一组不同的警报类型,因此我不会讨论优先级(P1-P5)或使用“信息”,“警告”和“严重”等字样的模型。相反,我将描述复杂系统事件响应中出现的通用类别。

你可能已经注意到我提到了一个“信息”警报类型,警报不应该是信息性的。嗯,不是每个人都同意,但如果没有发送给任何人,我不会认为是警报。它是许多系统称为警报的数据点。它代表了一些应该知道但没有响应的事件。它通常是警报工具的可视化系统的一部分,而不是触发实际通知的事件。Mike Julian在他的“实用监控”一书中介绍了警报的这一方面和其他方面。这是该领域工作的必读书。

非信息警报由可以响应或需要操作的类型组成。我将这些分为两类:内部中断和外部中断。(大多数公司都有两个以上的级别来确定其响应工作的优先级。)由于对每个用户的影响通常是未知的,因此系统性能下降被认为是此模型的中断。

内部中断的优先级低于外部中断,但仍需要快速响应。它们通常包括公司员工使用的内部系统或仅对公司员工可见的应用程序组件。

外部中断包括任何会立即影响客户的系统中断。这些不包括阻止释放系统更新的系统中断。它们确实包括面向客户的应用程序故障,数据库中断和网络分区,如果这两者都可能影响用户,则会损害可用性或一致性。它们还包括可能不会对用户产生直接影响的工具中断,因为应用程序继续运行,但这种透明的依赖性会影响性能。这在系统使用某些外部服务或数据源时很常见,这些服务或数据源对于完整功能不是必需的,但是当应用程序执行重试或处理来自此外部依赖项的错误时可能会导致延迟。

可视化

有许多可视化类型,我不会在这里全部介绍它们。这是一个迷人的研究领域。在我职业生涯的数据分析方面,学习和应用这些知识是一项持续的挑战。我们需要提供复杂系统输出的简单表示,以便最广泛地传播信息。Google Charts和Tableau提供了多种可视化类型。我们将介绍最常见的可视化和一些创新解决方案,以便快速了解系统。

折线图

折线图可能是最常见的可视化方式。随着时间的推移,它可以很好地理解系统。度量系统中的折线图将为每个唯一度量标准或某些度量标准聚合提供一条线。当同一个仪表板中存在大量指标时,这会让人感到困惑(如下图所示),但大多数系统可以选择要查看的特定指标,而不是让所有指标都可见。此外,如果异常行为足以逃避正常操作的噪音,则很容易发现异常行为。下面我们可以看到可能表示异常行为的紫色,黄色和浅蓝色线条

5个系统管理员常用的警报和可视化工具

折线图的另一个特征是可以经常堆叠它们以显示关系。例如,可能希望单独查看每个服务器上的请求,但也可以聚合查看。 这使你可以了解整个系统以及同一图表中的每个实例。

5个系统管理员常用的警报和可视化工具

热力图

另一种常见的可视化是热力图。在查看直方图时很有用。此类可视化类似于条形图,但可以在条形图中显示表示整体度量标准的不同百分位数的渐变。例如,假设正在查看请求延迟,并且希望快速了解所有请求的总体趋势和分布。 热力图对此非常有用,它可以使用颜色快速浏览每个部分的数量。

下面的热力图显示了图表中心线周围较高的浓度,每个时间段的垂直分布可以很容易理解。我们可能想要查看分布变宽的几个时间点,而其他时间点在14:00时相当紧张。此分布可能是负面的绩效指标。

5个系统管理员常用的警报和可视化工具

压力表

我将在这里介绍的最后一个常见可视化是仪表,它可以帮助用户快速了解单个指标。仪表可以代表单个指标,例如车速表代表行驶速度,或者汽油表代表汽车中的汽油量。与燃气表类似,大多数监控仪表清楚地表明什么是好的,什么不是。 通常(如下图所示),好用绿色代表,橙色代表性差,红色代表“一切都破坏”。 下面的中间一行显示了传统的仪表。

5个系统管理员常用的警报和可视化工具

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读