加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 移动互联 > 正文

腾讯AI Lab开源首款自动化模型压缩框架:将深度学习装口袋

发布时间:2018-09-19 11:22:49 所属栏目:移动互联 来源:佚名
导读:【新品产上线啦】51CTO播客,随时随地,碎片化学习 腾讯 AI Lab 机器学习中心今日宣布成功研发出世界上首款自动化深度学习模型压缩框架PocketFlow,并即将在近期发布开源代码。这是一款面向移动端 AI 开发者的自动模型压缩框架,集成了当前主流(包括腾讯 A
副标题[/!--empirenews.page--] 【新品产上线啦】51CTO播客,随时随地,碎片化学习

腾讯 AI Lab 机器学习中心今日宣布成功研发出世界上首款自动化深度学习模型压缩框架——PocketFlow,并即将在近期发布开源代码。这是一款面向移动端 AI 开发者的自动模型压缩框架,集成了当前主流(包括腾讯 AI Lab 自研)的模型压缩与训练算法,结合自研超参数优化组件实现了全程自动化托管式的模型压缩与加速。

开发者无需了解具体算法细节,即可快速地将 AI 技术部署到移动端产品上,实现用户数据的本地高效处理。目前该框架正在为腾讯的多项移动端业务提供模型压缩与加速的技术支持,在多款手机 APP 中得到应用。

1. PocketFlow 背景

随着 AI 技术的飞速发展,越来越多的公司希望在自己的移动端产品中注入 AI 能力,以优化用户使用体验。以深度学习为代表的 AI 技术极大地提升了图像理解、语音识别等诸多应用领域中的识别精度,但是主流的深度学习模型往往对计算资源要求较高,难以直接部署到消费级移动设备中。常用的解决方案是将复杂的深度学习模型部署在云端,移动端将待识别的数据上传至云端,再等待云端返回识别结果,但这对网络传输速度的要求较高,在网络覆盖不佳地区的用户使用体验较差,同时数据上传至云端后的隐私性也难以保证。

在这种情况下,众多模型压缩与加速算法应运而生,能够在较小的精度损失(甚至无损)下,有效提升 CNN 和 RNN 等网络结构的计算效率,从而使得深度学习模型在移动端的部署成为可能。但是,如何根据实际应用场景,选择合适的模型压缩与加速算法以及相应的超参数取值,往往需要较多的专业知识和实践经验,这无疑提高了这项技术对于一般开发者的使用门槛。

在此背景下,腾讯 AI Lab 机器学习中心研发了 PocketFlow 开源框架,以实现自动化的深度学习模型压缩与加速,助力 AI 技术在更多移动端产品中的广泛应用。通过集成多种深度学习模型压缩算法,并创新性地引入超参数优化组件,极大地提升了模型压缩技术的自动化程度。开发者无需介入具体的模型压缩算法及其超参数取值的选取,仅需指定设定期望的性能指标,即可通过 PocketFlow 得到符合需求的压缩模型,并快速部署到移动端应用中。

2. AI Lab 在 PocketFlow 上的研究进展

近期,AI Lab 机器学习中心在深度学习模型压缩以及超参数优化算法方面持续投入,并取得了诸多研究进展。在模型压缩算法方面,团队提出了一种基于判别力最大化准则的通道剪枝算法,在性能基本无损的前提下可以大幅度降低 CNN 网络模型的计算复杂度,相关论文发表于 NIPS 2018 [1]。该算法在训练过程中引入多个额外的损失项,以提升 CNN 网络中各层的判别力,然后逐层地基于分类误差与重构误差最小化的优化目标进行通道剪枝,去除判别力相对较小的冗余通道,从而实现模型的无损压缩。在超参数优化算法方面,团队研发了 AutoML 自动超参数优化框架,集成了包括高斯过程(Gaussian Processes, GP)和树形结构 Parzen 估计器(Tree-structured Parzen Estimator, TPE)等在内的多种超参数优化算法,通过全程自动化托管解决了人工调参耗时耗力的问题,大幅度提升了算法人员的开发效率。

另一方面,考虑到深度学习模型的训练周期普遍较长,团队对基于 TensorFlow 的多机多卡训练过程进行优化,降低分布式优化过程中的梯度通信耗时,研发了名为 TF-Plus 的分布式优化框架,仅需十几行的代码修改即可将针对单个 GPU 的训练代码扩展为多机多卡版本,并取得接近线性的加速比。此外,团队还提出了一种误差补偿的量化随机梯度下降算法,通过引入量化误差的补偿机制加快模型训练的收敛速度,能够在没有性能损失的前提下实现一到两个数量级的梯度压缩,降低分布式优化中的梯度通信量,从而加快训练速度,相关论文发表于 ICML 2018 [2]。

在 PocketFlow 框架的开发过程中,团队加入了对上述多个自研算法的支持,并且有效降低了模型压缩的精度损失,提升了模型的训练效率,并极大地提高了超参数调节方面的自动化程度。

3. PocketFlow 框架介绍

PocketFlow 框架主要由两部分组件构成,分别是模型压缩/加速算法组件和超参数优化组件,具体结构如下图所示。

腾讯AI Lab开源首款自动化模型压缩框架:将深度学习装口袋

开发者将未压缩的原始模型作为 PocketFlow 框架的输入,同时指定期望的性能指标,例如模型的压缩和/或加速倍数;在每一轮迭代过程中,超参数优化组件选取一组超参数取值组合,之后模型压缩/加速算法组件基于该超参数取值组合,对原始模型进行压缩,得到一个压缩后的候选模型;基于对候选模型进行性能评估的结果,超参数优化组件调整自身的模型参数,并选取一组新的超参数取值组合,以开始下一轮迭代过程;当迭代终止时,PocketFlow 选取最优的超参数取值组合以及对应的候选模型,作为最终输出,返回给开发者用作移动端的模型部署。

具体地,PocketFlow 通过下列各个算法组件的有效结合,实现了精度损失更小、自动化程度更高的深度学习模型的压缩与加速:

a) 通道剪枝(channel pruning)组件:在 CNN 网络中,通过对特征图中的通道维度进行剪枝,可以同时降低模型大小和计算复杂度,并且压缩后的模型可以直接基于现有的深度学习框架进行部署。在 CIFAR-10 图像分类任务中,通过对 ResNet-56 模型进行通道剪枝,可以实现 2.5 倍加速下分类精度损失 0.4%,3.3 倍加速下精度损失 0.7%。

b)权重稀疏化(weight sparsification)组件:通过对网络权重引入稀疏性约束,可以大幅度降低网络权重中的非零元素个数;压缩后模型的网络权重可以以稀疏矩阵的形式进行存储和传输,从而实现模型压缩。对于 MobileNet 图像分类模型,在删去 50% 网络权重后,在 ImageNet 数据集上的 Top-1 分类精度损失仅为 0.6%。

c)权重量化(weight quantization)组件:通过对网络权重引入量化约束,可以降低用于表示每个网络权重所需的比特数;团队同时提供了对于均匀和非均匀两大类量化算法的支持,可以充分利用 ARM 和 FPGA 等设备的硬件优化,以提升移动端的计算效率,并为未来的神经网络芯片设计提供软件支持。以用于 ImageNet 图像分类任务的 ResNet-18 模型为例,在 8 比特定点量化下可以实现精度无损的 4 倍压缩。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读