第四范式陈雨强：提高机器学习维度的两大法宝

发布时间：2017-06-15 12:25:45 所属栏目：访谈来源：站长之家用户

导读：2017年5月27日，由人工智能顶尖媒体“机器之心”主办的2017全球机器智能峰会(GMIS 2017)在京正式召开。大会邀请了来自中、美、欧等众多顶级专家参会，以专业化及全球化的视角为该领域的从业者及爱好者奉上了一场人工智能盛宴。第四范式联合创始人、首席研

副标题[/!--empirenews.page--]

2017年5月27日，由人工智能顶尖媒体“机器之心”主办的2017全球机器智能峰会(GMIS 2017)在京正式召开。大会邀请了来自中、美、欧等众多顶级专家参会，以专业化及全球化的视角为该领域的从业者及爱好者奉上了一场人工智能盛宴。第四范式联合创始人、首席研究科学家陈雨强受邀出席，并发表了主题演讲、分享了机器学习在工业界应用发展的新思考。

Macintosh HD:Users:rio:Downloads:IMG_0485.JPG

第四范式联合创始人、首席研究科学家陈雨强于全球机器智能峰会(GMIS 2017)发表演讲

陈雨强认为，过去五年，人工智能在工业界的火热程度正以指数的方式增长，而“VC维”便是衡量人工智能应用水平的关键。VC维理论是由Vapnik和Chervonenkis于1960年代至1990年代建立的统计学习理论，它反映了函数集的学习能力——VC维越大则模型或函数越复杂，学习能力就越强。举个例子，如果人类的智商水平可以用大脑的脑细胞数来衡量，那么机器的智商水平就可以用VC维来衡量，即超高智商的人工智能，需要超高维度的机器学习模型来实现。

陈雨强表示，第四范式在提高模型维度方面可谓下足了功夫，高维度模型在实际应用中的效果亦十分出众。以第四范式与某银行信用卡中心的合作案例为例，该银行需要通过数据精准识别出所有客户当中的信用卡账单分期客户。在短短两个月内，经过第四范式和卡中心的共同努力，该信用卡账单分期模型从此前的两百多维，提升至“五千万维”，使账单分期推荐短信的响应率提升了68%，卡中心的账单分期手续费提升61%。取得如此显著的效果，陈雨强为与会者解密了第四范式的机器学习产品前瞻的研发思路。

Macintosh HD:Users:rio:Downloads:IMG_0484.JPG

第四范式联合创始人、首席研究科学家陈雨强于全球机器智能峰会(GMIS 2017)发表演讲

打造深度稀疏网络(DSN)，兼顾“宽”与“深”的算法

众所周知，机器学习包含数据、特征、模型三个方面。特征分为宏观(描述的统计类特征)、微观(如个性化ID特征)两类，模型也分为简单、复杂两类。在数据足够充足的情况下，沿着模型优化和特征优化的两条路径切入，可以有效地提高机器学习的模型维度。

沿着模型优化——即走 “深”的路径是由学术界主导，优化模型的科学家们为了方便实验，降低了工程实现能力的要求，大部分模型可单机加载。工业界在按照该思路优化时，往往采用观察数据、找到规律、根据规律做模型假设、对模型假设中的参数用数据拟合、将拟合的结果上线测试等步骤。这条路径需要解决数据分布式以及通讯overhead等问题。

沿着特征优化——即走“宽”的路径是由工业界主导，无论是模型还是算法，均采取分布式的策略，在保证高效分布式的同时兼顾快速收敛。针对具体问题，采用较为成熟的线性模型，将观察到的所有微观特征进行建模。该优化路径的模型简单粗暴，且对工程挑战极大。

两种路径在工业界都有非常成功的应用案例，但双方的劣势同样明显。崇尚“宽”路径的阵营认为深度模型在某些问题上从来没有发挥出数据的全部价值，离真正的个性化尚有差距;而宽度模型则在推理能力上略逊一筹。

第四范式陈雨强：提高机器学习维度的两大法宝

Wide&Deep Model与DSN对比

近年来，宽与深的结合已经逐渐成为一个研究热点。2016年6月，Google研究院发表论文称，正在研发Wide&Deep Model，并表示其在搜索、广告与推荐等领域均十分有效。同年7月，第四范式发布了新一代的模型算法——深度稀疏网络DSN(Deep Sparse Network)。Wide&DeepModel利用深度窄网络刻画宏观特征之间的关系，利用宽度浅层网络记忆微观特征，但无法刻画微观特征之间的复杂关系，由于Wide&DeepModel将“宽”和“深”分离，导致微观和宏观特征之间的关系也无法刻画。与Wide&DeepModel不同，第四范式的DSN将“宽”和“深”做了更全面的融合，算法底层是上千亿大小的宽度网络，上层是一个全连接的网络，这样既可以记住更多信息，又能刻画所有特征(包括宏观特征和微观特征)之间更复杂的关系。在参数规模上，Wide&DeepModel支持的参数规模为十亿级， DSN支持的参数规模已达到十万亿级，模型“VC维”更高，这意味着随着数据量的增大，模型效果有更大的提升空间。

重塑大规模分布式机器学习系统架构，兼顾开发和执行的效率

在工业界应用中，由于模型维度的增加，对机器学习的系统架构提出了更高的要求。

第一，由于功率墙(Power Wall，即芯片密度不能无限增长)和延迟墙(Latency Wall，即受光速限制，芯片规模和时钟频率不能无限增长)的限制，摩尔定律正在慢慢失效。目前，提升计算能力的方式主要是依靠并行计算，从早期的以降低执行延迟为主到现在的以提升吞吐量为主。在模型训练的高性能计算要求下，单机在I/O、存储、计算等方面显得力不从心。因此，第四范式针对此问题设计了分布式并行化的机器学习模型训练系统。

“power wall of cpu”的图片搜索结果

Power Wall，功耗随着集成电路密度指数提升

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页