加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长百科 > 正文

现场直播|中国建设银行北京数据中心处长 郝丽萍:《建设银行在智能运维上的探索及实践》

发布时间:2018-10-18 12:00:05 所属栏目:站长百科 来源:中国IDC圈
导读:各位领导和专家下午好,我是建设银行数据中心北京这边的,主要是在数据中心负责数据中心现在的创新,大家都知道数据中心过去的方式可能我们主要是稳定运维,现在除了稳定运维之外我们还加了创新,现在我们数据中心有一个处是专门搞创新的,我现在主要是负
副标题[/!--empirenews.page--]

各位领导和专家下午好,我是建设银行数据中心北京这边的,主要是在数据中心负责数据中心现在的创新,大家都知道数据中心过去的方式可能我们主要是稳定运维,现在除了稳定运维之外我们还加了创新,现在我们数据中心有一个处是专门搞创新的,我现在主要是负责这个处的创新工作。还有就是我们整个数据中心工具的建设,大家知道我们整个运维其实现在已经走向了从原来的手工到自动化,然后到人工智能,这是我们现在整个工具运维的规划和建设。我们今年在做的一个事情,就是我们整个数据中心智能化的规划,后续的一些演进的路径,现在在牵头做这个事。

郝丽萍

下面我给各位领导和专家分享一下我们建设银行在智能化运维上面的一些尝试和探索。后续还有一些我们后续实施的路径跟大家分享一下,有不妥之处也请大家多多指正。

现在我们先看一下,我大概跟大家分享的有三部分,第一部分,怎么来理解智能运维,智能运维是从哪个方面?它的概念是什么?我们怎么去理解?第二部分,智能化运维的框架设计,我们建行今年在年初启动了一个相当于人工智能大的事项的启动,我们设计了一些智能化运维的框架,我下面场景怎么落地,做了这项工作,我们数据中心也在参与相当于智能运维方面是我们来做的。第三部分,我们在一些场景方面的探索和实践跟大家作一个分享。

大家看一下我们首先数据中心现在面临的挑战是什么?第一个,我们认为现在数据中心的运维规模越来越大了,大家也知道现在我们今年又投入了公有云,整个相当于扩张特别快,相当于运维规模现在我们看了一下,差不多公有云、私有云加起来我们整个物理机差不多是1万多,再加上我们还有虚拟机差不多是翻了倍的在往上涨。

第二个高效敏捷,现在我们随着社会的需要、客户的需要,开发妥善的项目,过去每年有运维日历,大版本是多少个,8个还是10个,例行维护可能有十几个。现在我们基本上每周都有投产的,现在开发中心的项目基本上不让超过三个月,所以大大小小的项目基本上每周都有投产的项目,所以这对我们数据中心也提出了一个挑战,因为整个投产是我们数据中心在做,我觉得我们建行可能跟其他银行有些不同的就是相当于我们应用运维,数据中心要负责整个应用运维,开发之后在数据中心投产,数据中心要负责投产上线的工作,这块的工作量现在特别大。如果没有自动化的手段现在就是靠人,也是面临很大的挑战。

第三个,新技术的应用,大家也知道现在大数据、人工智能的发展,智能化运维变成了可能。

那什么是智能运维?什么是AIOps,其实今年大家可能参加过好多交流论坛,上面也有很多对于AIOps的理解,我们这是对一些标准的理解,什么是智能运维?将大数据与人工智能功能相结合的软件系统,以增强和部分取代广泛的IT运维流程和任务,包括可用性和性能监视、事件相关性和分析,IT服务管理和自动化。预期,根据Gartner的分析,智能运维相关的技术产业处于上升期。

还有一个智能边缘技术的应用也在推动着运维管理向智能化去发展,大家知道物联网、移动计算、社交网络、虚拟现实、机器人,还有一些生物识别的技术也对数据中心的基础设施的建设和管理方式提出了更高的要求。我们今年现在数据中心一个是北京有,一个是南湖有,武汉还有一个,我们现在试点了两个机器人的智能巡检。还有我们运维的自动化和无人值守,这些都是未来我们相当于对数据中心的物联网方面也提出了很高的要求。

还有一个对于智能运维的理解,这张片子是分析了一下什么是智能运维?它应该具备几大能力?第一个最起码的是感知力,大家知道感知力就是发现并学习管理对象的配置,其实就是监控,我的眼睛怎么能把故障及时地发现,发现在苗头状态之中,我们首先是要有感知的能力。第二个能力,要有控制力,其实就是大脑,感知力我们首先能发现、能看到,第二个要决策,要有大脑怎么去分析,发现事件和问题的时候我怎么去分析,分析业务影响,分析相关的关联性,然后做出一些判断。第三个控制力,能看到问题了、发现问题了,我能分析出来、判断出来,最后怎么去做、怎么去实施这个事,就是怎么通过自动化的手段把这个问题给解了,对故障处置及自愈的能力,这是人工智能方面应该具备的一个很重要的要做的能力,自动化的能力,这是三大能力。

还有我们也总结了一下,智能化运维除了三大能力以外还有几大特征,我们当时做整个规划项目有八个特征,首先第一个特征是会学习。相当于我们的运维工具,能够自动对生产环境当中的配置和监控采集的数据能够学习和形成知识,让我在后续操作的时候能够把这些知识引用进来。第二个能够感知,首先我能发现问题,能快速地发现问题,现在因为我们搭建了自己的大数据平台,运维的大数据平台,利用了一些开源的技术,流式计算,提高了效率。我们现在基本上是采用的10秒,秒级监控,10秒采集数据。第三个会分析,我们配置数据,大家知道做人工智能最重要的是大数据和配置,配置是我们相对静态的数据,大数据是我们相对动态的数据。怎么通过我们的配置数据建立我们系统的运维画像,还有进行分析、比对,了解系统之间的差异,产生差异的原因和提前预警的能力。第四个会推理,根据系统分析和评估的结果,利用故障场景、专家建议等规则或模型对故障问题提出推理的能力,就是能推断出它未来有可能会产生什么问题。

还有一个是可预测,我们现在还是利用我们的一些趋势分析和算法,这个还是要有一些人工算法在里面进行单指标和多指标的学习,建立我们系统趋势相当于预知的能力,预测到有可能出现问题的一种能力。可决策,刚才说的还是大脑的问题,大脑根据大数据的分析结果形成事件问题的综合分析结果,给后续的处置和决策提供依据。还有一个自动化,就是刚才我们说的控制力,自动化是要把简单的、重要的、重复性的工作通过自动化的手段来实现。最后一个可视化,我们今年也做了好多工作,今年我们相当于对我们的运维场景,怎么在我们的ECC里面有参观的场景、值班的场景,还有一些业务的场景,就是给业务看的一些场景。

上面是我们说的三大能力、八个特征。下面我们再介绍一下建设银行在智能运维的框架设计上,未来要做的话框架设计是什么样子的?大家看一下这是我们当时年初做整个人工智能规划的时候,我们当时是把数据中心所有的事项进行了收集,收集以后就是我们的一些应用场景,这些场景怎么去分类,未来怎么去实施,有什么路径,我们也是做了一个四象限的分析。从左到右,从低频到高频。从下到上,是从简单到复杂,把我们所有场景按照四个象限进行了分类。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读