专访马子雅：英特尔开源BigDL，推进AI民主化

发布时间：2017-06-15 13:06:01 所属栏目：访谈来源：站长之家用户

导读：作为 AI 民主化战略的重要实践之一，英特尔在2016 年的最后一天，开源了基于 Apache Spark 的分布式深度学习框架 BigDL。最近，英特尔公司软件与服务事业部副总裁、系统技术和优化部门大数据技术总监马子雅女士接受了新智元的专访，畅谈了BigDL 的特点、

马子雅：Jason Dai是我们大数据技术全球 CTO，他在 BigDL 的架构构建和工程开发方面发挥了重要的领导作用。在开源后 BigDL 项目得到了全世界许多开源社区用户的积极参与：例如在 BigDL 开源不到两个月后，InfoWorld 就在其对深度学习趋势的预测中，将 BigDL 与 TensorFlow、Caffe 等一起并列为目前最流行的深度学习框架;Jason 和他在上海及硅谷的团队，基于全世界 BigDL 社区用户提供的反馈，以及和我们全球的客户/合作伙伴的密切合作，为 BigDL 项目制定了将来的路线图(包括新功能、可用性、可扩展性等方面)。我们的下一个版本将在第一季度末左右发布，主要更新包括：增加对 PythonAPI 的支持，提供更好的可视化体验(利用 Notebook 和 TensorBoard)，增加对 macOS 的支持，提供更丰富的 RNN 支持(如对LSTM 、GRU等算法的支持)等等。

Intel-analytics 的其他开源库及对各类深度学习任务的支持

新智元：除了 BigDL，我们知道 Intel-analytics下面还有另外的开源库：比如 SparseML等;您是否可以比较一下，这些开源库分别有什么特点?应用于哪些场景?

马子雅：BigDL 能为那些拥有大量数据、以及已建(或将建)大数据集群的用户，提供构建基于深度学习(和人工智能)的大数据分析的最优服务。BigDL 天生就可以运行在现有标准的大数据平台(Hadoop/Spark)之上，利用公共的数据基础架构，在数据采集、特征提取、传统机器学习和深度学习工作负载等方面，为客户提供统一的和无缝集成的完整体验。它支持大规模的深度学习和机器学习，并提供自动容错和自动动态弹性资源管理。

对于具有极高模型维度和大量非常稀疏数据(例如，百亿到千亿级别的训练样本，十亿级甚至百亿级别特征)的用户，SparseML 可以显著地为他们提高机器学习的可扩展性。许多互联网公司需要从大量的极度稀疏数据中学习模型，他们面临的挑战是现有的机器学习解决方案无法处理大量数据或高维度模型;通过利用数据稀疏性，对分布式机器学习数据结构、网络通信和算术运算的优化，SparseML 可以比现有开源的机器学习算法(例如Spark Mllib)提供更高的可扩展性。

新智元：可以看出，Intel-analytics 在努力形成一个支撑各种应用场景的完整生态。那么，请允许我问一个比较具体的问题：如果我希望进行深度学习的图像分类，应该如何从英特尔的产品组合中选择呢?或者我要处理的数据里面既包括图像又包括音频，又该如何选择呢?

马子雅：我们的目标是为机器学习用户和开发人员提供从硬件到软件的最简便、最完整和最高效的体验。

为了选择最合适的解决方案栈，您需要评估一些事情：(1)您是否已有了现有的基础架构，并希望利用它来构建图像分类?(2)您最大的需求是什么：从现有的分布式文件系统/存储中直接访问数据存储，以实现快速的机器学习实验周期(turn-around time)?是与您现有的分析工作流程或平台轻松集成?还是可扩展性(处理大量训练样本或高维特征的能力)，高资源利用率，低总拥有成本，训练性能等等?根据您对这些问题的回答，您可以选择不同的解决方案。

在硬件层面，我们有各种产品可供选择，例如：Xeon，Xeon phi，FPGA。将来我们还会有LakeCrest(Nervana silicon);您可以挑选最适合您的需要的产品。

在深度学习框架层面，我们正在推动 Neon 并将英特尔优化的MKL应用于深度学习框架，比如 Caffe，TensorFlow，Theano 和 Torch 等。如果您喜欢使用这些优化的框架，您可以直接使用它们或通过英特尔深度学习SDK来使用它们。

如果您已经有了大数据(Hadoop/Spark)集群或大数据分析工作流，那么您很可能更倾向在现有的大数据基础架构中来进行深度学习。我们正在推动以 Spark /Hadoop 为数据分析和人工智能的统一平台，来支持端到端的学习工作流，包括从数据管理，特征管理，特征工程，模型训练到最后的结果评估;那么，BigDL 将会极大地适合你的需求。

从开源到 AI 民主化

新智元：英特尔在人工智能领域所提供的产品组合已经非常丰富了，其中包括了许多我们今天提到的开源项目，那么请问马女士，在英特尔人工智能的产业布局中，是如何认识“开源”这件事的意义呢?未来是否会有计划推出更多的开源项目呢?

马子雅：开源项目有很多原因：

1.建立一个更大的开发社区，可以检验我们的设计和解决方案(好不好?哪里好?哪里不好?……)。好的开发人员喜欢与好的开发人员合作，与好的项目合作。如果我们的项目流行得足以吸引到外部人员来贡献力量，那么我们就相当于创建了一个倍增的开发人员社区，帮助我们工作得更快更好;

2.加速客户使用：随着我们的项目开源，它帮助更多的用户和客户从我们的工作中受益;他们的成功反过来会影响其他客户和用户使用这些解决方案。来自这些快速扩张的用户群的反馈也可以反过来影响我们的路线图和设计，以更好地服务用户的需求;

3.开源项目也是我们为行业和社区支持AI的承诺做出的最好的展示。

随着我们与行业客户和合作伙伴的继续合作，确定新的需求领域，我们将继续推动新的项目开源，就像我们这次为 BigDL 所做的。英特尔致力于开源协作，确保我们的客户和合作伙伴在英特尔硬件上拥有最佳、最简便、最完整的 AI 体验。

新智元：在英特尔的人工智能战略中，Democratize AI 是一个非常重要的组成部分。请问英特尔是如何定义自己在人工智能领域的“ democratize ”的?准备采取什么举措来服务企业级用户和开发者?同时，又准备如何更好地服务已经习惯使用CPU来做深度学习项目的用户，比如高校、研究机构中的研究人员?

马子雅：英特尔致力于将我们的技术提供给我们的社区，为客户和开发人员释放AI在IA上的全部潜力。

我们将与开源社区广泛合作，以便让更广泛的受众可以利用我们的工作。在DL框架级别，我们推动开源 Neon，并将英特尔优化的 MKL 应用于开源框架例如 Caffe，Tensorflow，Theano，Torch等(一个例子是英特尔和谷歌去年宣布战略联盟，以加速机器学习的应用，例如加速英特尔处理器上的 TensorFlow 性能，将高性能库如 Math Kernel Library (MKL)集成到 TensorFlow)。我们还开源基于大数据和 Spark 的深度学习框架比如 BigDL。英特尔深度学习 SDK 让客户和开发人员易于使用和访问这些框架，以便客户能够更好地专注于真正增值的机器学习工作。

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/5

首页

尾页