加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长百科 > 正文

现场直播|中国建设银行北京数据中心处长 郝丽萍:《建设银行在智能运维上的探索及实践》

发布时间:2018-10-18 12:00:05 所属栏目:站长百科 来源:中国IDC圈
导读:各位领导和专家下午好,我是建设银行数据中心北京这边的,主要是在数据中心负责数据中心现在的创新,大家都知道数据中心过去的方式可能我们主要是稳定运维,现在除了稳定运维之外我们还加了创新,现在我们数据中心有一个处是专门搞创新的,我现在主要是负

实施应该先做什么、后做什么,我们也有一个,简单的有低频的,相当于机房资源、服务流程、备份这些,我们通过规范化和流程化来实现。第二个实施路径是什么?就是右下角这个,相当于又高频,重复性的工作多,又比较简单,我们通过自动化和半自动化的方式来实现,那就是我们的智能授权、应用部署、告警、聚合、合并、机房机器人、简单的告警自动化变更还有巡检,这相当于第二个。

上面两个是相对比较难做的,右上角又复杂、频率又高,可能也是我们现在最难做的,现在我们也做了一些逐步的尝试,这就是要通过智能决策和执行、经验和替代人的能力的部分,我们有做一些系统画像,有故障定位、智能基线,这里面的场景还有我们的变更。

还有是低频,但是相对来说又比较复杂,这就是智能辅助决策,这个我们就放在相对靠后点去做。这是我们整个收集了数据中心所有的运维场景之后,我们当时做了一些分类。

这是我们今年还做了一个很重要的工作也跟大家分享一下,就是我们数据中心拿运维数据做的建模,大家知道数据中心抱着那么多数据,相当于一个大金矿,你怎么把数据用好?数据中心到底有什么数据?今年我们做了一个很重要的工作,把新一代所有的业务数据都做了一个建模,支撑我们后面新一代的整个开发。今年我们把相当于所有的运维数据整个做了一次梳理,就知道我们有什么数据,未来我们这些数据能干什么?第一个目标全面掌握数据中心运维信息的分布,形成企业级的运维工作数据视图。第二个,定义数据中心统一规范。现在的效果我们做了一些场景,我们数据中心从运维到运营到底要做什么?我们做了一些尝试,现在我们在算一些成本,数据中心将来通过成本中心怎么向利润中心转的时候,这个成本怎么算?我们现在也在做一些尝试,就是这些数据未来我们怎么去用?而且这个数据是不是你一次建完以后,是不是就了无大事?这不是,这也是根据我们的场景不断发现缺的东西我们不断完善和补充的过程。

这是我们今年在做整个规划的时候,智能运维平台的一个PaaS平台,我们未来设计的PaaS平台就是按照这个图形来做的,最下面是我们的相当于管理对象,就是我们的计算资源、网络资源、存储资源,其实就是资源类的管理对象。这一层是我们的存储,第二层是我们存储的数据库,我们的大数据用的ES。数据存储之上是我们的平台服务,上面我们设计的时候有算力,人工智能的时候有GPU这些基本计算服务,上面还有我们的算法平台,现在有深度学习、机器学习的算法平台,这面是我们的数据进来以后怎么做服务,相当于我们的配置数据、大数据进来以后都要做一些数据清洗的工作。还有中间件,我们现在也用了一些开源的产品。

再上面,平台上面就是我们的场景,就是刚才我们看到的四象限里面的,这是我们举的一些例子,没有全面画出来,举了一些我们常用的场景。系统画像、健康度评估、智能基线等等,这是我们现在做的一些场景,最上面是我们的接口,这是整个相当于对智能运维PaaS平台的设计。

给大家分享我们的配置,建设银行做配置也是经历了比较多的坎坷,其实七八年前就开始做了,但是做了以后一直用的不好,从去年开始我们也把我们的配置重构了,现在建立了主要以场景建设就是我的配置怎么好用、怎么去做,我们现在把我们的配置平台重新进行了设计,整个全部的相当于包括数据生产和数据消费,自动化的全部是数据生产能力和多场景应用的数据消费能力,我们建立了整个生产通道,今年我们领导的要求也是,今年我们主要的是实现数字化,就是要把我们所有数据采到配置和大数据里面,现在我们建立了采集通道,实现了数据采集、清洗和存储,也具备了平台,我们现在把平台、网络、存储、应用的基本配置都采了,这个工作是要到年底完成的,基本上我们认知范围内的数据都要采到,具备结构化数据和文件数据的分布式存储能力。

还有我们建立了整个消费通道,其实数据采过来容易,采完之后怎么用?必须有数据的消费才能保证数据的完整性和准确性。数据消费整个是场景化,有什么场景我们去做什么场景。去年、今年我们一直在做,建立了消费通道,就是满足场景化的数据建模和消费需求,提供基础数据的核心对象还有对象之间的关系,后面像我们的系统画像就是基于配置自动产生的。然后是提供基础设施的一些基线管理、订阅、比对、下载等能力,还有是为应用场景提供基础数据服务。

我们的大数据平台也是基于整个开源产品做的,整个我们大数据平台也是建了有好几年,今年我们又做了一些升级,整个用的都是ELK这套开源产品,我们的数据采集大家看重要性业务类别,业务安全级别分为不同的层级。第一个像普通的日志集群,还有应用交易集群,日志集群有应用日志、数据库日志,还有整个我们的一些告警事件,还有我们的应用主要是针对整个应用交易监控做的,整个应用的数据,还有交易日志、性能数据,整个按照重要性数据划分了不同集群。整个我们采集的方式是有待遇的,无待遇的,接口方式的,三种接口采集方式。数据存储时间也是根据数据重要性来区分的,有7天的,还有交易明细数据是30天,还有健康检查是90天,还有一些交易的监控统计数据是2年。这是整个我们的大数据平台。前面的场景设计,还有我们整个智能运维的PaaS平台设计,还有我们的配置数据、大数据平台,其实构成了我们整个建设银行的智能运维的框架。

第三部分我再给大家分享一下我们的一些场景,基于这个框架下,我们现在已经应用了哪些场景?系统画像,大家知道系统画像现在说的比较多,系统画像现在是从哪几个特征,我们就能看到这个系统是长什么样的,应该是具备一个什么样的,就认为它能把这个系统准确地描述出来,我们现在也是总结了一下,一个是我们长期的配置数据,这个相对来说是我们的静态数据,相当于我们配置管理的数据,还有短期内的相关操作,还有系统行为模式。还有一个健康度评估,是每天要做的,看到底它的指标是多少就跟体检一样,能打多少分、在哪些方面有缺陷。

这是我们的一个图,大家可以看一下,左边的大图是基于我们的配置产生的,这个图会自动生成,如果你说需要看哪个系统整个配置画像会出来了,这是基于配置自动产生的。第二个,进去以后点到部署单元,就会显示出来下面具体又连接到哪些。第三个,相当于告警事件,就是我们的实时告警,点进去之后能看到上面告警数量有几个,告警事件有哪些,在这个地方都会列出来。第四个,配置管理进去的钻去,这个是我们现在已经有的已经做出来的。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读