加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营 > 正文

数据中心网络在AI时代的一些思考

发布时间:2018-10-23 07:23:59 所属栏目:运营 来源:中国IDC圈
导读:在过去这五年时间,数据中心这个领域是新技术演进最频繁最快速的领域,大量的新创新技术,比如说SDN/NFV、云网联动,比如虚拟交换,包括Docker这样一些技术,都是在数据中心内部得到发育和得到应用成熟。
7272bb458016d01.jpg_600x600威海站长网(http://www.0631zz.cn)观点大带宽的网络技术也是首先应用在数据中心,比如25G的接入,100G的接入,以及马上到来的400G的接入,都是首先在数据中心里应用。在数据中心领域,经过“互联网+”、大数据的大规模发展。 发展到现在这个阶段,我们在各个行业积累了大量的行业数据,而且现在还在每天每时每刻在不断产生更多的行业数据,基于这样海量的行业数据,我们现在有机会从这些数据里产生智能,从而把这些数据真正的价值释放出来,迈入AI的时代。 AI对业务有大量的挑战,首先是面向计算和存储的,比如机器训练,机器翻译的训练,里面计算量非常巨大,一次训练需要半年以上,这样的迭代速度远远没法满足AI业务的诉求。还有分布式存储,传统的分布式存储只能达到2万IOPS,现在某商业银行已经能达到35万IOPS的云存储。计算和存储领域的技术也在飞快发展,刚才三星韩先生的材料里提到,他们最新的SCM技术的存储系统,时延已经能够达到10微秒以下。当存储时延和计算时延能够降低到这样的数量级的时候,大家就发现瓶颈已经不在计算和存储了,瓶颈被转移到网络了。 网络的时延其实很短的,一台交换机一跳的时延也就是几百个纳秒,如果我们考虑一个网络三跳,也就是一个微秒左右的时延,那为什么网络会成为AI计算和存储的一个新的瓶颈?这里面有两点差异,第一,比如这种分布式存储,如果把操作过程打开看,它在一次I/O操作里会带来六次的网络访问。第二,刚才计算的时延其实有一定的误导,我们只看到静态时延,静态转发的时延是这么大。但是网络中,以太网的技术、TCP/IP的技术,有一个很大的问题,像分布式存储或者AI计算,分布式的计算都有一个特征,会有一个中心节点去分发任务,当所有任务向它发数据的时候,会形成流量,这个流量有可能会导致流量的拥塞,一旦发生拥塞,时延就从几百个纳秒成十倍百倍的增加,这种动态的时延是我们在AI计算里一个主要的障碍,也是我们当前面临的一个重大挑战。我们要怎么样去控制这样的动态时延,使它能够满足业务技术的要求,这是我们当前面临的一个新的挑战。 现有的以太网技术并不能满足AI诉求,传统的以太网技术不用讲了,肯定是不能满足的。那后来出现了什么?比如InfiniBand,它的主要诉求是解决低时延的问题,它很好的解决了低时延的问题,但是带来的问题是,第一,它是私有协议,不仅仅是一个成本的问题,或者也不仅仅是产业链的问题,它的问题在于在数据中心当前这样一个开放程度下是无法融合的。 比如一个云服务商要想对外提供AI服务,基于AI的云服务给企业,如果从企业角度看,如果他在私有云使用了InfiniBand的技术,要利用公有云来协作计算的时候也是无法做到的,所以私有是一个很重要的短板。同时它的网络规模非常小,只能支持很小的网络规模,我们现在看到比如像先进的云服务商这种互联网企业,他们的规模动辄都是几千台服务器的规模,这个对于InfiniBand的技术来讲是很大的瓶颈。 另外还有一个技术,在IEEE的CEE的标准,融合增强以太网主要解决的是无丢包,像分布式存储系统一旦出现丢包,时延的增长是完全无法接受的。它的解决思路是什么,既然你不要丢包,把你的带宽利用率降低下来,通过大幅度降低带宽利用率来使得你不要丢包。确实达到了不丢包的目的,但是它的问题在于它的带宽利用率太低。我们需要一个什么样的技术来支撑AI的业务诉求,应该是在高吞吐、大带宽的前提下的低时延和无丢包,这是我们现在所需要的网络,而且需要有效的控制动态时延,而不仅仅去关注静态时延。 华为发布AI Fabric这个方案,这里面包含了很多技术方向,我们的目标就是要在高吞吐的情况下实现零丢包和低时延。其实我们是把传统的以太网解剖开,把它原来粗犷无序的方式变成可控有序。比如刚才讲CEE,为什么它的带宽利用率低,一个简单的原理,它提前对这个流量进行压制,比如100G的端口带宽设一个水线,比如设到50G,当流量达到50G的时候,反压前端让它不要再发了,这样就降了,自然不会出现丢包。但是为了不丢包,必须要把这个水线舍得足够低,过程中还有延迟效应,这段时间的延迟之内仍然可能会出现拥塞和丢包。我们现在提出来的这个技术,通过动态调整水线,通过实施带宽流量监控,去动态调整水线,在达到不丢包的前提之下能够达到最大的带宽利用率。当然还有一些其他的技术,大家可以到展台再去做一些深入的探讨。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读