北京大学计算机系教授博士生导师崔斌：以机器学系统Angel支持大数据所带来的挑战

发布时间：2017-09-30 18:20:43 所属栏目：电商来源：财经网

导读：2017年9月27日，第二届大数据产业应用协同创新峰会于北京隆重召开。在会上，北京大学计算机系教授博士生导师崔斌发表了有关“支持大数据的分布式机器学习系统Angel”的演讲。 2017年9月27日，第二届大数据产业应用协同创新峰会于北京隆重召开。在会上，北

副标题[/!--empirenews.page--]

2017年9月27日，第二届大数据产业应用协同创新峰会于北京隆重召开。在会上，北京大学计算机系教授博士生导师崔斌发表了有关“支持大数据的分布式机器学习系统Angel”的演讲。

他表示，因为大数据或者很多应用会带来一些新的挑战。例如，数据训练的样本越来越大，已经没办法再处理，然后数据的规模、数据模型的规模、维度也越来越高。在这样的情况下，需要一些分布式的机器学习，来支持这样的一些应用。

另外，通常在业界做推荐的时候，也会涉及到像决策数、神经网络、逻辑回归等等，这也是很常用的一些机器学算法，所以需要支持好这一类的机器学算法需要构建一个很大的机器学系统。

他表示，Angel系统主要是面向分布式的机器学习任务，采用的就是机器学习参数服务器的架构，里面能够支持数据并行、模型并行、不同的计算模式，并对很多算法进行了目前很深度的优化。

以下为演讲全文：

每次分会都体现啊。今天我给大家介绍一下我们做的一个能够支持大规模数据做分布式机器学习的这么一个系统。这是我的汇报提纲。首先看一下背景，现在大家都在说人工智能，机器学习。机器学习现在说是成为挖掘数据价值的主要的技术。其实大家也可以看到，大概五年，或者十年前左右，要学生读研究生，很多人说，我对数字挖掘感兴趣；现在人来找的话，都说我对人工智能，机器学习感兴趣，大部分都是这样。所以社会对这些词的变化都很容易从这边能够体现出来，那其实他们很多做的都是很相近的一些事情，就是挖掘数据的一些价值。那机器学习，现在广告推荐、文本挖掘、视频图象、语音处理、金融风险、个性化医疗、智能城市都得到很广泛的应用。

刚才几位专家都已经讲过，但是现在因为，因为大数据或者很多更多的应用，其实对这些技术带来一些新的挑战。你比方说数据训练的样本现在越来越大，已经没办法再处理。然后数据的规模、数据模型的规模、维度也越来越高。在这样的情况下，我们需要一些分布式的机器学习，能够来支持这样的一些应用。

那简单用腾讯的一个案例，我们来做一下，作为一个研究的一个基本的一个介绍。右边两张图是手机QQ跟微信上面的一个广告，像类似腾讯很多系统里，他会有一些广告位，这里的广告位需要根据你的一些用户的实时的一些行为它就做这么一个推荐。所以在这个情况，它其实需要对大数据进行一个很精准的分析才能推荐好这个广告。那它的量是非常大的，这是去年的数据，类似QQ，微信这样的系统，它是覆盖的用户是8到10亿这样的一个规模，然后每个地方，广告位它可以推荐给你的东西可能有几十万个，所以它要从这里面，去选一个你最有可能点击的东西。完了还有复杂的关系链，以千亿计以上的，然后每天的推荐请求量很高。推荐给你广告，大家其实你平时可以想象到，推荐给你广告，其实你基本上不会去点击的。所以正常情况，它的点击率可能100次里面，你可能点击个一次、两次。所以对他来说，如果稍微推荐的准一点，就会带来一个很大的一个价值。

在这个精准广告推荐的时候，首先你需要对用户、产品、广告，这些基本的特征你需要做一些处理。它会涉及到哪些特征啊？比方对用户来说，他会有一些你的基本的属性。比方说你对什么感兴趣，还有你的用户的关系链是怎么样的，然后你的消费能力到底是怎么样的，他可能会针对你的平时的一些行为做一些prefa(音)。还有一些广告的特征，比方说这个广告是谁发的，这个广告有什么创意，关健词是什么，公司、品牌、价格到底是怎么样的；还有一些上下文的特征，比方你这个广告位到底大小怎么样，可见度怎么样；它是什么样的形式，是视频的、还是图片的，还是文字的；然后是在哪里，是在你的PPT上面、还是笔记本上面、还是手机上面；或者你用什么APP，所以这些都是他要考虑的因素。这还仅仅是一个基本的特征，但是我们在用的时候，他可能把这个基本特征，再次做一些转换。比方说把可能一些特征，转化成01这样的特征，然后各种的特征做一下组合，那最终它会产生一个亿级以上这个特征量维度的一个稀疏的特征。所以说我们所需要，做机器学习，或者挖掘这样一个模型，它是非常大的。

另外在业界，通常在做推荐的时候，他会涉及到像决策数、神经网络、逻辑回归等等，这也是业界很常用的一些机器学算法。所以需要支持好这一类的机器学算法呢，我们需要构建一个很大的机器学系统。

好，那我们这个系统，我从一四年大概开始跟腾讯一起合作，我们想做这么一个系统。然后一六年，开始在他们的生产环境中，也开始正常的开始使用了。然后今年呢，6月份我们又把这个系统进行的开源。大家都可以看到这个系统，也可以下载来自己用。主要是我们构建了一个工业级别，很可用的一个参照服务器这么一个架构的分布式机器学习系统。然后里面有很丰富的机器学算法，跟数据的一些计算库。我们也提供了很友好的用户编程的接口。

最终我们做一些简单的概述就是我们这个系统主要是面向分布式的机器学习任务，然后采用的就是机器学习参数服务器的架构。里面能够支持数据并行，然后模型并行，然后不同的计算模式。然后对很多算法进行了目前很深度的优化，也发表了几篇学术的文章。至少在发表出来文章里面，我们的性能是最强的。

然后因为它系统需要可用，所以它具备一些良好的特性。也就是我们做分布式系统设计的一些必要的一些特性，像可扩展性、易用性、可靠性、高效性、平台兼容这些我们都能够满足。

接下来介绍一下相关的研究。现在的分布式机器学习系统，其实外面的市面上很多。尤其这两年，开源的系统越来越多。我们把这些，做一些简单的归类，当然这个归类不一定准确。第一类是我们把它分成数据流这个模式的系统，像haoop上面的一些机器学习库，把它归到这一类；还有一些是以图计算的这些系统，像06：14（英）等等；另外一种大家可能目前更火的，大家更了解的更多一点的，可能就是深度学习系统，像谷歌的06：27（英），这些都是类似像亚马逊、Facebook、然后百度什么，开源的一些深度学习系统。

然后我们看一下，这些机器学习系统，其实大家还是都是有一些的问题。然后我们简单看，机器学算法，大部分它是不断叠代的过程。你需要它不断的叠代跟训练，最终可能你做了100人的计算，或者200人的计算，或者上千等等。做完之后，你会训练出一个好的模型，接下来你就可以用了。所以在这个过程中，其实很多系统是存在一定的瓶颈的。比方说spark(07：10)机器学习，spark系统学，在云计算，或者大数据它用的很多。然后它最终，后来它也提供了07：19（英），在它的基础上开发了一些支持机器学习的一个库。然后这里面，它是会有一定的瓶颈。我们可以看到，当你的数据规模很大的时候，你会把数据分布在不同的机器上面。那在每一轮机器进行训练的时候，你需要把训练的模型参数，发给各个计算的结点，各个计算的结点根据你本地的数据，计算完以后，最终你做一个汇总。汇总到一个deliver上面。这个汇总完以后呢，然后你又把这次更新好的传统模型，再发给各个数据结点，各个数据结点计算完以后，再汇总到一个deliver然后再发。就这么一个过程，通常是大部分机器学习这么来做的。那我们来看spark这样的模型显然可以看到，这个08：07（英）在每次参数汇总的时候，它显然可能会成为一个瓶颈，所以它难以支撑很大规模的模型。另外，有一些处理的方法，就是你想你模型太大了，那我把它做一个降位的处理，原来十亿个维度的模型，我把它降为一万维，那也可以。但是呢，通常它会引起一些数据的丢失，然后它准确性，可能就不那么高了。好，那这是一个08：34（英）机器学。

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

数据中心告别柴发还需	教你电脑如何重装系统
dell笔记本电脑安装wi	网络攻击激增证明了零