提升12倍！香港浸会大学与MassGrid发布低带宽高效AI训练新算法

发布时间：2019-05-10 22:14:59 所属栏目：建站来源：佚名

导读：本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。随着训练数据量的增加和深度神经网络（DNN）的日益复杂，分布式计算环境（如GPU集群）被广泛采用，以加速DNN的训练。分布式计算网络在机器学习方面的瓶颈在于节点之间的数据传输效率，

利用树状结构进行两两通信，每次只传输k个非0值，而接收者则会有2k个值，为下次传输也只传输k个值，接收者从2k个值中再选出k个值传递给下一个接收者。由于两两通信是可以同时进行，因此对于P个节点，只需要logP轮通信，一个8节点的示例如图3所示。

由图3可以看出，第1个节点在每一轮通信中都会接收另一个节点的k个非0元素，在最后一轮通信后，第1个节点则选出了k个非0元素然后广播给其他节点，所以整体的通信开销为：2αlogP + 4kβlogP。当机器规模P变大时，gTop-k还能维持较高的扩展性。算法伪代码为图4所示。

△ 图3 对8个节点，共需要3轮通信，每轮通信只传输k个非0值

△ 图4 gTopKAllReduce算法伪代码

实验结果

香港浸会大学异构计算实验室与MassGrid的研究人员在32台矿机环境上进行实验，每台矿机使用一个Nvidia P102-100显卡。

首先验证gTop-k S-SGD的收敛性。之后，对三种S-SGD算法（即基于稠密梯度的S-SGD，Top-k S-SGD和gTop-k S-SGD）的训练效率进行了比较。

实验具体硬件配置如表II所示

用于实验的神经网络配置如表III所示

gTop-k的收敛性能

总体来看，在不同数据集上三种不同类型的DNN的收敛结果表明研究人员提出的gTop-k S-SGD在训练期间不会损坏模型性能。

△ 图5 gTop-k S-SGD收敛性能

gTop-k的扩展性能

与S-SGD和Top-k S-SGD相比，在32个计算节点的集群环境上，gTop-k S-SGD比S-SGD快6.7倍，比Top-k S-SGD平均快1.4倍。不同的模型和不同节点数加速比如图6和表IV所示。

△ 图6不同节点数的扩展效率对比

△ 表7不同模型的扩展效率对比

局部稀疏化时间（tcompr.）和通信时间（tcommu.）。结果如图11所示。

一方面，在VGG-16和AlexNet型号的时间细分中通信开销远大于计算。因为VGG-16和AlexNet有三个完全连接的层，具有大量参数，而计算速度相对较快。这些也反映出即使使用gTop-k稀疏化，图6中S-SGD的缩放效率也很低。

另一方面，通信和稀疏化的时间远小于使用ResNet20和ResNet-50计算的时间，这表明通信计算比率低，因此即使在低带宽网络上，扩展效率也可高达80％。

此外，应注意梯度稀疏化所用的时间是与VGG-16和AlexNet型号的计算时间相当。主要原因是GPU上的Top-k选择效率低下，并且在SIMD架构上高度并行化可能并非易事。研究人员将此作为未来的优化方向。

实验总结

分布式同步随机梯度下降（S-SGD）已经广泛用于训练大规模深度神经网络（DNN），但是它通常需要计算工作者（例如，GPU）之间非常高的通信带宽以迭代交换梯度。

最近，已经提出了Top-k稀疏化技术来减少工人之间要交换的数据量。Top-k稀疏化可以将大部分梯度归零，而不会影响模型收敛。

通过对不同DNN的广泛实验，这一研究验证了gTop-k S-SGD与S-SGD具有几乎一致的收敛性能，并且在泛化性能上只有轻微的降级。

在扩展效率方面，研究人员在具有32个GPU机器的集群上（MassGrid矿机集群）评估gTop-k，这些机器与1 Gbps以太网互连。

实验结果表明，该方法比S-SGD实现了2.7-12倍的缩放效率，比现有的Top-k S-SGD提高了1.1-1.7倍。

传送门

论文原文链接：https://arxiv.org/abs/1901.04359

更多关于MassGrid的应用场景请查询：www.massgrid.com

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

杭州网站优化的几个注	网站优化效果不好怎么
网站结构怎么优化？对	网站文章内容持续更新