设为首页 - 加入收藏 核心网 (http://www.hxwgxz.com)- 云主机,资讯,互联网,人工智能,云计算,大数据,区块链,VR,站长网!
热搜: 连奕名 统一 2017 市场
当前位置: 主页 > 业界 > 正文

AIOps中的四大金刚都是谁?

发布时间:2018-11-20 18:44 所属栏目:[业界] 来源:今日头条
导读:智能运维,即AIOps(Artificial Intelligence for IT Operations),是将人工智能的能力与运维相结合,通过机器学习的方法来提升运维效率。 在传统的自动化运维体系中,重复性运维工作的人力成本和效率问题得到了有效解决。但在复杂场景下的故障处理、变更管

智能运维,即AIOps(Artificial Intelligence for IT Operations),是将人工智能的能力与运维相结合,通过机器学习的方法来提升运维效率。

在传统的自动化运维体系中,重复性运维工作的人力成本和效率问题得到了有效解决。但在复杂场景下的故障处理、变更管理、容量管理、服务资源过程中,仍需要人来掌控决策的过程,这阻碍了运维效率的进一步提升。而AI方法的引入,使得机器能够代替人来做出决策,从而让实现完全自动化真正意义上成为可能。

AIOps中的四大金刚都是谁?

在百度AIOps的落地实施过程中,最关键的因素还是人,即AIOps的建设者们。

AIOps作为一个全新的技术发展和应用方向,并不是简单地说具备某一种技能或招募一两个大牛就可以完成的,它需要不同角色、多个团队的配合才可以达成。根据近几年来整个业界对AIOps的理解和实践,AIOps参与角色的划分也越来越清晰。在百度4年的AIOps实践中,我们总结得出如下四种不可或缺的角色:

  • 运维工程师
  • 运维研发工程师
  • 平台研发工程师
  • 运维AI工程师

可以看到,除了运维AI工程师外,其他角色并不是AIOps产生之后才出现的,他们在传统运维中也发挥了重要作用。我们今天主要想和大家探讨一下,在AIOps时代,他们的职责究竟发生了哪些变化。为了方便大家理解,我们会基于百度云智能运维的实践案例,来进行具体说明。

单机房故障自愈场景

单机房故障自愈是一个典型的百度AIOps落地项目。该方案主要解决的问题场景如下:某个业务由于网络、设备、变更、程序Bug、容量等原因造成故障,但故障范围仅局限在单个机房或单个Region内部。那么,我们可以基于流量调度等手段,将访问流量调度到非故障机房或Region,实现该类型故障的自动止损。

整个故障自愈过程分为如下几个阶段:

智能运维|AIOps中的四大金刚都是谁?

在这个过程中,需要AIOps四种角色分工明确、紧密配合,来完成整个AIOps解决方案的落地实现。在单机房故障自愈场景下,四种角色的关系如下图所示:

智能运维|AIOps中的四大金刚都是谁?

运维工程师

在单机房故障自愈项目中,运维工程师基于日常运维工作中所积累的场景、问题等方面经验,确定以单机房故障止损作为主要需求和突破口,通过定义单机房故障止损的问题域、解决思路以及风险点,明确AI可以发力的领域。运维工程师的职责主要包括如下几个方面:

智能运维|AIOps中的四大金刚都是谁?

在完成问题域的定义后,运维工程师需要跟踪整个单机房故障自愈解决方案的落地,包括在策略设计前期提供数据标注支持,在中期进行效果的验收,在后期将单机房故障自愈方案实际部署运行到生产环境。

AIOps时代的职责和技能变化

运维工程师承担线上服务质量的责任,是服务质量的关键保证。在工作过程中,会与研发、产品、运营等各类角色、不同团队进行深度的沟通和协作。

传统运维中,运维工程师的主要职责分为三个方面:质量、成本、效率。

智能运维|AIOps中的四大金刚都是谁?

主要包含如下工作内容:

智能运维|AIOps中的四大金刚都是谁?

在AIOps落地实施中,运维工程师是处于中心的角色,也赋予了新的职责,他们是AIOps具体实施的需求提出者和成果验收者。具体职责包括:

智能运维|AIOps中的四大金刚都是谁?

在AIOps时代,运维工程师一方面需要熟悉运维领域的知识,了解运维的难题和解决思路;另一方面需要了解人工智能和机器学习的思路,能够理解哪些场景问题适合用机器学习方法解决,需要提供怎样的样本和数据,即成为AI在运维领域落地实施的解决方案专家。

运维AI工程师

在单机房故障自愈场景中,运维AI工程师将机器学习的算法与实际的故障处理业务场景相结合,针对单机房故障场景的风险点,进行策略研发与实验工作。如下图所示:

智能运维|AIOps中的四大金刚都是谁?

运维AI工程师分别设计了如下算法策略来满足整个复杂故障场景的自动决策:

异常检测算法:解决故障发现时指标异常判断问题,基于AI方法实现较高的准确率和召回率,作为整个故障自愈的数据基础。

策略编排算法:基于当前线上的实际流量和服务状态,设计损益计算模型,判断基于何种方式的操作组合或步骤,能够使整个自动止损带来收益最大,风险最小。

流量调度算法:基于线上服务容量与实时流量情况,进行精确流量比例计算,防御容量不足或不准风险,并实现流量调度收益最大化。

在完成策略设计与研发后,需要根据历史数据进行Case回溯,并进行仿真Case模拟,来验证策略效果,并进行逐步迭代调优,以达到线上运行的准确率和召回率要求。

AIOps时代的职责和技能变化

运维AI工程师是将AI引入运维的核心角色。他们针对运维数据、运维经验进行理解和梳理,使用机器学习的方法将海量运维数据进行汇总、归纳,使得数据的价值显现出来。

【免责声明】本站内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。

网友评论
推荐文章