加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 云计算 > 正文

【2018可信云大会】太平洋保险陆小彦:人工智能在IT运维领域应用

发布时间:2018-08-17 00:23:17 所属栏目:云计算 来源:中国IDC圈
导读:我是来自太平洋保险集团的信息技术中心的陆小彦,接下来我跟大家分享一下太平洋在运维领域人工智能方面实践应用的情况。 主要介绍4个方面的内容:运维痛点、需求是怎么诞生的、技术实现、目前的应用成效。 大家应该都清楚一项新技术的实践来自于我们工作当
副标题[/!--empirenews.page--]

我是来自太平洋保险集团的信息技术中心的陆小彦,接下来我跟大家分享一下太平洋在运维领域人工智能方面实践应用的情况。

陆小彦-1

主要介绍4个方面的内容:运维痛点、需求是怎么诞生的、技术实现、目前的应用成效。

大家应该都清楚一项新技术的实践来自于我们工作当中遇到了一些瓶颈或者痛点,保险也不例外,来看一些数据,这是我们在2017年运维数据的参考,一年监控告警有几十万单,这些监控告警中靠人工关联的将近耗费近十多个人员,告警数量非常大,我们的人工关联是7×24小时三班倒的,人工关联的效率是比较低的,准确率也是比较低的,这个告警工单处理的慢,我们解决故障的时效也到达了一个瓶颈,去年的时效是2%,2018年的绩效可能就达不到多少了。

去年一年的业务活动的情况,重大的业务活动去年近百起,这还不包括比较小的业务活动,比2016年上升了70%,对于金融公司来说,日常的营销活动是非常重要的,是公司收营必须要经过的重心,但是活动的保障需求量非常大,我们基本上IT都是靠SOP来解决,接到一个需求任务之后,看一下SOP手册应该做哪些检测、哪些部署,对历史的运行数据没有好的经验。再看一下我们的工单量,工单量来自9个子公司,接近100个分支公司柜面人员日常的报单,到达了百万级,比2016年上升了33%,二线处理人员在17年人均处理的指标上都是成倍的增长,大家可以看一下人均工单处理量、人均维护系统数、人均维护节点数都是非常非常多,对我们来说工作负荷非常大,专业人才一年年的流失,我们的知识也没有得到重建。可想而知,我们内部用户满意度会下降,间接影响到我们的外部用户。

基于这些痛点,我们肯定想有没有新的技术可以应用到这上面?是否可以引入人工智能?因为近几年太保已经把自动化运维平台建造的比较完善了,接下来我们考虑是否引入人工智能。

我有句话跟大家分享一下“没有应用场景的AI不是真的AI,只是算法”。范本只有落地到应用场景之后才能达到效果。给大家分享一下我们需求是怎么诞生的,需求诞生分主动和被动两个方式,先说一下被动。

被动的主要是日常故障的处理之后、业务活动的保障之后会定期做一些复盘,这些复盘动作会出现一些我们需要解决的问题项,这是我们需求的来源。

再介绍一下主动,主动分两部分:首先我们会走出去请进来,走出去和同行业的朋友还有供应商、厂商做一些交流,看看大家现在在做什么。拿回来学习一下。主动的第二部分是我们自己内部的应用团队,大家坐下来头脑风暴,看一下我们有哪些需求可以诞生出来。

这是需求诞生的经过,但是需求讨论完之后不落地到实处就是虚的,所以我们引入了建原型法,每落地到一个需求场景都会建原型出来,初步建原型之后再回到探讨讨论过程当中去,使它成为最终的建原型成果。

今天给大家分享三个需求场景:1、告警收敛;告警收敛主要针对前面痛点中的告警工单做汇聚合并和主源分析。2、趋势预测,主要针对业务的预知,未来趋势发展的预知和容量管理部分,这两个需求是目前太保与华为合作的项目,项目的产品叫云脑,谐音就是运脑。3、点点2.0,这里插一句点点是什么?点点是太保在2015年诞生的运维服务机器人,2.0是1.0的升级版,我们在2.0当中新增了风险检测和智能交互的需求。

接下来我介绍一下三个需求的情况。

告警收敛,大家可以看到在界面的右边是当时设计的原型,需求考虑的结果,上方是工单收敛的交付截面,下方是我们跟踪分析必须照顾到的主因,右边是最终交付的看,在TOP图架构中会生成收敛预和收敛结果的展示,再下一层会展示分析的归因,下面是实时告警工单的情况。

接下来是趋势预测,在最开始建原型交付的时候,上方是日常业务出单趋势的情况,实现部分是已经发生过的实际交付业务量,虚线部分是期望能够预测出的交付图,对应点上的柱状图是服务器或者容量指标的预警。下图是软硬件周期趋势管理的原型图,最终我们的趋势预测也是交付为看板模式,在图上可以看到有7个指标,分别来自于财寿险、保单、理赔和话务沟通量。

介绍一下点点2.0,内容非常多,先说一下安全防控圈,就是风险检测,风险检测是对数据处理做一个实时的检查,在场景式交互上,目前点点是放在用户操作几百个应用系统的场景中作为一个浮窗或者插件的形式存在,一旦操作人员操作系统的时候发现问题、遇到困难,可以通过唤醒点点做一个帮助自助解决问题的过程,这个自助解决包括一键截图、图片文字识别、解决方案的反馈,如果用户还没有解决,还可以点下一步自动提交工单。提交完工单到二线运维人员处理之后,就会有处理人员接手会推荐历史上同类案件的解决过程,同时也会推送知识库,目前有的最接近的解决方案给运维人员。2.0除了在PC端系统有应用以外现在在移动端也有应用,大家看到的图是目前营销人员使用的APP,右边是设计的原型,左边是已经交付上线的系统功能。

目前给大家介绍的三个需求。在实施这三个需求项目的过程中,我们同时建立了一个研究路径的闭环,这也是整个团队的结果。这里介绍一下研究闭环的应用架构,中间左边部分是离线训练的模型集群,这里面包含CPU和GPU,离线训练模型主要包含数据的抽取、数据的预处理、模型的训练、模型的可视化、模型的验证及发布。正式模型由离线训练模型发布给应用集群,应用集群相当于大家熟知的生产集群,生产集群同样部署了高一个级别的CPU和GPU,生产集群向上提供接口与外部系统,外部系统生产其他应用系统做接口,这个生产应用系统,如告警工单就是自动化运维云平台,比如点点系统。向下一个管理平台,这个管理平台相当于大家常知的知识库,但是它比知识库更多一点,还包含效果标签、识别规则等信息都在知识库里面做管理。

训练模型,训练集群里面训练的架构全览,每天的告警工单、业务数据、会以图片文字的形式进入正式模型,会打一次机器标注,机器标注的结果与专家一审做对比,如果有差异的会进入人工标注的二审,最终结果以人工标注的二审为交付,交付结果进入右下的训练模型,训练模型训练之后会生成正式的发行发布到生产,这就是每日循环的过程。大家也知道,模型其实需要很大数据量来训练才能达到一定准确率,还需要更多标注数据提高准确率,它的每日训练相当于不断的做,可以24小时在训练。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读