加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长百科 > 正文

现场直播|包商银行生产运行中心总经理 李甦:《包商银行数据中心运维经验分享》

发布时间:2018-10-20 12:09:26 所属栏目:站长百科 来源:中国IDC圈
导读:10月16日,2018年开放数据峰会(Open Data Center Summit 2018)于上午在北京国际会议中心开幕。作为数据中心行业的一大盛事,ODCC每年都将汇聚数千名数据中心专家与几十名主流媒体。本届峰会时间为16日-17日,ODCC将发布最新研究成果,碰撞尖端热点技术,
副标题[/!--empirenews.page--]

10月16日,2018年开放数据峰会(Open Data Center Summit 2018)于上午在北京国际会议中心开幕。作为数据中心行业的一大盛事,ODCC每年都将汇聚数千名数据中心专家与几十名主流媒体。本届峰会时间为16日-17日,ODCC将发布最新研究成果,碰撞尖端热点技术,分享国际技术进展,展示主流产品应用。

2


 

首先感谢ODCC提供这么个平台,让我代表包商银行来学习分享,同时感谢大家下午坚持这么长时间来听,我是最后一个,希望能讲的稍微活泼一点,大家也别犯困,因为你会发现讲到最后我们还是有些商机的,别看包商银行小。我今天想跟大家分享的是包商银行十年之间两到三代整个IT系统和数据中心变革的这么一个经历。

这是我们包商银行整个IT的现状,我们现在有三个数据中心,有两个在北京,一个是在包头,来支撑我们全行所有的IT设备。包商银行本身业务系统总数大概200套,包商村镇银行大约26套,包商银行现在是内蒙古最大的股份制银行,我们在内蒙地区、宁波、深圳、成都、北京设立了18家分行,同时设立了30家村镇银行,机构遍布全国16个省市自治区,2017年年末,资产规模约5500亿元。

这块我先来说一下,我们下面的第一个想讲的是数据中心的精细化管理。这张图之前,我先讲一个笑话,我是2009年入职包商银行的。刚入职的时候我去包头,我们的领导跟我说包商银行机房比较老,我当时对什么叫比较老没有概念。等我第一次进到这个机房里的时候我发现咱们机房里的空调其实跟我们家用的空调是一样的,是大金的柜机,我不知道大家有没有这个概念,风冷的家用柜机做机房的空调,有时候冷凝水排的不畅,边上还得放一个盆接冷凝水。所以我们面临的是包头地区人才不足的问题,技术响应慢,设备备品和备件不足。IBM690那个时候用的时候,如果出了故障,IBM还得坐飞机从北京往那里背备件。因此从2009年开始到2010年包商银行领导决策当然也是比较有眼界的,把包商银行的数据中心设立在了北京,我也是这个时候就入职了。我们当时北京有一个备份的数据中心、主数据中心,包头作为灾备中心承接当时2010年这一代的核心系统。这就是我们当时的数据中心,如果有光大的同事在这里就会发现,光大当时在我们数据中心的二层,我们当时在一层,后来他们受不了了,搬走了,我们现在还凑合在用,是马连道的数据中心,起租时间是2009年初。

这就是机房的现状,这就是当时地下室的柴油机,电力我们当时确实是真的双路的,有柴机、有风冷空调,监控和报警系统也都具备。但是面临什么问题?当时给我们UPS做的是N+1的模式,当时机房的总电量也不够,1000多平米的机房只给我们500千伏安的电,层高也不足,4.5米的层高,底下线缆放多了,风量就不足了。人员也一样,我们基本没有的专业的运维人员,全部都新入职员工就地转成运维人员,自动化工具也欠缺,2009年的时候一切都是重新开始,整体就面临这些问题。

这是我们当时的一个统计,作为外部的一个分析来讲,人为操作的失误它的影响频度也高,同时它的影响冲击度也高。所以说我们当时想通过精细化的管理解决人为操作失误导致的这种非计划停机的问题,这个饼图是我们自身的统计,我们有软件的故障、硬件的故障、网络的故障,人为操作的失误在包商银行里大概导致了13%左右的非计划停机时间。

这张图是我们精细化管理的目标,我们当时从2010年开始就要做一个什么事?就是机房精细化运维的管理,我们想解决什么问题,目标是什么,我们想通过精细化管理解决人为操作的风险,改善基础架构平台的可用性,最终是减少故障的发生。怎么来实现这个目标?精细化管理我们搭建了标准化作业SOP的体系,为运营提供坚实的基础。这块包商银行的钱相对来讲少,所以说除了商用工具,我们自身也通过主观能动性开发了很多小微的工具,来填补商用工具在运维里的空缺,最终提升效率,同我们也降低了IT运行的成本。

当时精细化管理就是一句话,精细化管理五个字。但是真正怎么落地我们借鉴的是丰田精益化管理工业上的应用场景落到IT领域。第一块是现场的管理和5Why?发生了什么、看到了什么、情况如何、问题何在,找到根本的问题。第二个看板管理。还有标准的工作程序SOP。还有品质管理,品质管理就是要用数据来真正指导我们将来的工作,是一个闭环的管理过程,就是你拿到了你的分析数据,怎么来改变你将来的工作模式?我们通过这个品质管理来解决。还有一块是智能化和少人化,通过丰田的五个领域落到IT来解决我们数据中心运维的问题。

这就是我们当时设立的一个模型,这个模型着重在五块,是四个大圈通过电子化的工具来支撑流程管理的精细化、操作管理、质控管理、安全管理精细化。同时光有这些流程的改进没有用,我们还设定了很多指标,通过这些指标来真正的引导我们做相应的改进。像流程管理的一些考核指标,我不知道现在大家还有没有紧急变更的比率,当时我们就面临很头疼,各种各样的紧急变更,不知道大家有没有概念,会带来很多不确定性。所以当时我们第一个就是把紧急变更的指标占比降下来,其次就是变更的成功率,这两块实际上变更是对于运维来讲冲击最大的一个事。

操作管理重点是什么?就是人应该怎么干活?我讲一个故事,上下电。不知道大家的机房管理里遇没遇到过?机房的上下电其实也是一种真正意义上的变更,但是在我们当时来讲不认为这是一个变更,把机器往上一架、电一插就解决了。最初遇到什么问题,上架一台机器,一插,整个柜子掉电了,这个问题我们通过精细化管理解决了。还有质控问题等等,这些都是我们当时考核的重点指标。当然还有安全的管理,像ISO27001里提到的物理安全、人员权限,还有现在对银行来讲人员的离职尤其是大行,人员规模大,进出频繁,离职以后权限应该怎么收这块也是很重要要关注的事。我们通过这些指标来真正引导我们的精细化管理的推进。

这张图就是刚才要提到的从流程管理向过程管理的延伸,其实我发现以我的工作经验来讲,其实制度都写的很全,事件管理办法、变更管理办法,但是这些管理办法到最终底下的任务,监控出现了告警应该怎么处理,中间这段在银行来讲,尤其小我们中小银行是缺失的。所以我们的精细化管理重点解决的是过程管理的问题,比如怎么监控、怎么备份、补丁怎么发布,每一项细节从管理办法到实施细则,其实这就是大行管理制度里的实施细则,实施细则到具体底下的任务我们把中间的管理过程完善了,形成了自己的SOP体系。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读