密集发布语言与知识十年成果：从NLP看百度AI助推产业智能化的完整范式

发布时间：2020-09-10 10:37:36 所属栏目：创业来源：网络整理

导读：当AI发展借新基建东风进一步加速后，每个垂直门类都开始表现出一边深化技术、一边广拓生态的两大特征。最近的百度大脑语言与知识技术峰会直接表现了这一点。

仍然以文心为例，它全面降低了NLP的定制开发成本，在强大语义理解能力下对数据标注广度和深度要求降低——90%准确度的模型，过去需要5100条数据，现在可能只要220条数据；在算力上也类似，由于集成了ERNIE预训练模型，企业只需要单机微调即可取得世界领先效果的NLP模型，极大降低算力成本。

可以看出，这种成本的降低伴随着效率的提升，二者是一体两面的关系。而更进一步看，对实际参与开发工作的开发者而言，仅需要配置或编写少量代码便可完成从模型训练到模型评估，1周的工作1天完成，这本身也是一种体验上的优化。

类似的还有UNIT智能对话与定制服务平台，在本次升级后数据标注成本的进一步降低30%以上。重点场景预置的场景化解决方案，能够帮助开发者以更低的成本、更高的效率完成智能对话系统的构建，而这种构建也不需要长篇大论、逻辑复杂的编程，只需要调用对应的模块即可。

3、既要单环节强化，也要全链条深入

“既全且深”在过去是NLP开发者对平台服务的美好理想，既能够提供全面的服务，每个细分服务还能够做到足够得深。

现在，这种理想已经变成现实，它同样得益于技术和服务的长期积累。

以百度NLP智能创作平台为例，该平台一年多以来的自动创作文章累计200万+，相当一个10人团队至少工作45年；“图文转视频能力”上线4个月，被7000多家客户使用，自动创作短视频15万，相当于一个人至少要工作100年。

在此基础上，智能创作平台进行了再升级，一次性推出囊括智能策划、智能采编和智能审校全链条的3大场景方案，而每个环节，都十分深度而不只是简单的布局。

例如，在智能采编环节，借助融合文本、视觉、语音的跨模态AI技术，一方面提供文章创作多样、易用的工具，另一方面，还整合了视频编辑、图文与视频互相转换等视频生产实用能力，实际应用可以帮助视频生产速度达到原有的6倍。

可以认为，在百度等巨头的积极探索下，过去NLP领域那些不可能、充满矛盾的产业应用需求，最终将变得稀松平常。

三、让AI强者恒强的“自增强循环”，这次AI巨头又有了新的玩法

在AI发展领域有典型的来自实践的“自增强循环”现象，即在深度积累下不断在自身业务、产业领域进行实践，将成果反馈，推动算法、数据等不断进步，自我强化，对行业的领先像滚雪球一样越滚越大。

例如，百度NLP领先行业的UNIT，自发布以来，2.7万多开发者在平台累积知识条目总量2.4亿，支撑了超过10万个智能对话应用，与最终用户总计进行了超过4200亿次交互。

这些实践的强化，反过来让UNIT能力更上一层楼，推出更多更低成本、更高效率、更好开发体验的服务，这种正向循环让UNIT超越竞品越来越多。

所谓的“强者恒强”，其实根本上就是来自于这种“自增强循环”。

现在，百度在NLP领域推进这种“自增强循环”又多了一种玩法。如果说过去的“自增强”过程是在自己的地盘中实践推进，那么百度此次推出的行业计划，则带有联合整个行业共同完成“自增强循环”的意味。

此次百度NLP推出的千言开源数据计划十分典型。

在百度的构想中，它试图“团结”来自国内多家高校和企业的数据资源研发者，共同建设这样一个数据项目，在更多的“同行”加入下，获得更丰富的任务类型、更多的开源数据集合。

这样做的好处，是让计划中的每一个参与者都能享受到整个行业的数据和模型积累，从复杂知识构建、语义理解、知识融合、多模态融合等角度推动技术的进步，毕竟，百度NLP积累再多，也少于整个行业，而NLP又是一个极度依赖积累的AI垂直领域。

千言第一期总共涵盖了7大任务，20多个中文开源数据集合，这会是百度另一种“自增强循环”的开启，只不过，它依靠的是整个行业横向而不是自身实践纵向的推进力量，也将惠及整个行业。

通过行业共建的方式汲取精华获得群策群力的成长，这是百度AI、NLP更大的手笔。

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

穗港科研团队首建真正	邓丽君引爆虚拟人板块
比亚迪成立电池公司，	自称新势力2.0，电动屋