专访马子雅：英特尔开源BigDL，推进AI民主化

发布时间：2017-06-15 13:06:01 所属栏目：访谈来源：站长之家用户

导读：作为 AI 民主化战略的重要实践之一，英特尔在2016 年的最后一天，开源了基于 Apache Spark 的分布式深度学习框架 BigDL。最近，英特尔公司软件与服务事业部副总裁、系统技术和优化部门大数据技术总监马子雅女士接受了新智元的专访，畅谈了BigDL 的特点、

副标题[/!--empirenews.page--]

作为 AI 民主化战略的重要实践之一，英特尔在2016 年的最后一天，开源了基于 Apache Spark 的分布式深度学习框架 BigDL。最近，英特尔公司软件与服务事业部副总裁、系统技术和优化部门大数据技术总监马子雅女士接受了新智元的专访，畅谈了BigDL 的特点、应用、未来的改进，以及英特尔开源这一深度学习框架的初衷和意义。正如马子雅女士所说，“BigDL的目标是大大降低普通大数据用户和数据科学家，在使用深度学习进行数据分析和构建人工智能应用的门槛”，“英特尔致力于将我们的技术提供给我们的社区，为客户和开发人员释放 AI 在 IA(英特尔架构，Intel Architecture)上的全部潜力”。

BigDL 原生地建立于Hadoop/Spark 之上

新智元：马女士您好。英特尔开源了基于Apache Spark 的分布式深度学习框架 BigDL。请问和其他开源框架相比，BigDL 有什么特点?

马子雅：BigDL 的目标是大大降低普通大数据用户和数据科学家，在使用深度学习进行数据分析和构建人工智能应用的门槛。去年 12 月 31 日我们开源了 BigDL;开源社区对BigDL 的积极采纳令人印象非常深刻：在短短一个月内，GitHub 上已获得 229 个用户克隆 BigDL 代码(FORK)和 1421 个用户收藏(STAR)。今年 2 月波士顿举行了 Spark 峰会，在大会开幕主题演讲上，斯坦福大学教授、ApacheSpark 创建者、Databricks CTO Matei Zaharia 高度评价了 BigDL;到目前为止，包括Databricks(Apache Spark 重要贡献者)云平台和微软 Azure HDInsight云服务都提供了与 BigDL 的集成，方便其用户访问使用。此外，众多全球媒体包括Infoworld，HPCwire，Datanami，HPC，infoq，InsideHPC，计算机商业评论，SiliconAngle，Oreilly 等，以及德国、日本和中国等各国媒体也对 BigDL 也进行了深入的报道。

专访马子雅：英特尔开源BigDL，推进AI民主化

BigDL 是一个建立在大数据平台(Hadoop/Spark)之上原生的分布式深度学习库。它提供了在ApacheSpark上丰富的深度学习功能(和现有框架如 Caffe 和 Torch等功能一致)，以帮助 Hadoop/Spark 成为一个统一的数据分析平台，为整个数据分析和机器学习过程(包括训练/测试数据收集，数据的管理，转特征换，传统机器学习，深度学习，模型部署和服务等)提供比现有框架更加统一和集成化的体验。BigDL 程序是作为标准的 Spark 程序编写的，并且不需要对底层 Hadoop/Spark 集群进行更改;对于拥有(或将拥有)大数据基础架构的分析客户，可以在现有 Hadoop/Spark 集群上直接运行深度学习应用，不需要设置单独的训练集群，也无需在两个集群之间拷贝多版本的数据和模型，从而减少了端到端的学习延迟，并降低了总体成本。

基于大数据平台的 BigDL 比现有的深度学习框架有更高效的横向扩展、容错性、弹性和动态资源管理;通过利用英特尔MKL 和其他多线程优化方法，它在单节点Xeon上拥有极高的性能，并且可以轻松扩展到上百个节点。它还支持载入 Caffe / Torch 的预训练模型到 Spark 上，来进行特征提取、微调、预测等。

新智元：英特尔准备如何把人们吸引到 BigDL 中来呢?

马子雅：我们始终相信，更好地满足用户需求的解决方案会得到更好的应用。

近年来，随着我们与许多大数据分析和AI客户合作，他们的需求有几个明显的趋势：

-客户体验和易用性：客户希望能在同一集群中、在现有的数据分析流水线上进行深度学习，以便轻松地与数据管理、特性工程、传统(非深度)机器学习集成;这样就能帮助他们消除在不同集群之间的多版本数据/模型的拷贝，降低端到端的机器学习延迟，将深度学习集成到现有的大数据分析工作流中管理，并且实现动态、弹性的机器资源管理。

-大规模深度学习：客户希望为他们的深度学习模型提供越来越多的数据，以提高训练的准确性。许多人选择在大数据(Haoop/Spark)平台之上构建深度学习功能，以便利用其水平扩展架构，分析大规模训练数据。

专访马子雅：英特尔开源BigDL，推进AI民主化

当为客户解决这些问题时，第一反应是将现有的深度学习框架集成到客户的大数据平台上，希望将他们的深度学习能力和Spark / Hadoop的可扩展性结合在一起;但是这样的整合仅仅停留在表面，而缺乏在数据处理或模型集成上的无缝集成。这是我们引入BigDL的最大驱动因素。BigDL与现有深度学习框架的功能一致，但是BigDL的优点是它原生地建立在Spark上，并且天然地继承了Spark的可扩展性，并且与现有大数据处理工作流(例如Spark ML pipeline，SparkSQL， Spark Streaming， Dataframes， Structured Streaming等)无缝集成。所以BigDL特别适用于有大量数据需要管理，以及拥有(或将拥有)大数据平台(Hadoop/Spark)的分析客户。

BigDL 的应用案例和未来改进方向

新智元：BigDL 现在主要应用于哪些领域?您是否可以介绍一两个应用的案例?

马子雅：BigDL 的目标是大大降低普通大数据用户和数据科学家，使用深度学习进行数据分析和构建人工智能应用的门槛;所以 BigDL 可以和现有大数据分析的工作流(例如Spark ML pipeline，SparkSQL， Spark Streaming， Dataframes， Structured Streaming等)进行无缝集成。BigDL 虽然是在几个月前开源的，但实际上我们已经与一些早期合作者，基于以上特性成功构建了基于 BigDL 的深度学习(和人工智能)的端到端的应用案例。

第一个客户案例是在钢铁制造行业的应用。提高钢表面缺陷的识别精度对钢铁生产和质量控制非常重要;我们与一个知名的钢铁生产商合作，使用 Spark 和 BigDL 实现了端到端的深度学习流水线，用于产品缺陷图像识别。由此客户显著地提高了其缺陷识别的精度和能力。

对于金融服务公司来说，由于其广泛的产品、服务和客户互动渠道，他们面临的欺诈交易风险大大增加了。我们与一家金融服务公司合作，使用 Spark 和 BigDL 实施了端到端的学习流水线，即时分析大量数据，为此显著地提高了欺诈交易检测率。

新智元：BigDL 之后会在哪些方面做出改进?比如，是否会提供 Python API ?是否会允许更多的其他框架训练好的模型载入?

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/5

尾页