加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 正文

密集发布语言与知识十年成果:从NLP看百度AI助推产业智能化的完整范式

发布时间:2020-09-10 10:37:36 所属栏目:创业 来源:网络整理
导读:当AI发展借新基建东风进一步加速后,每个垂直门类都开始表现出一边深化技术、一边广拓生态的两大特征。最近的百度大脑语言与知识技术峰会直接表现了这一点。

仍然以文心为例,它全面降低了NLP的定制开发成本,在强大语义理解能力下对数据标注广度和深度要求降低——90%准确度的模型,过去需要5100条数据,现在可能只要220条数据;在算力上也类似,由于集成了ERNIE预训练模型,企业只需要单机微调即可取得世界领先效果的NLP模型,极大降低算力成本。

可以看出,这种成本的降低伴随着效率的提升,二者是一体两面的关系。而更进一步看,对实际参与开发工作的开发者而言,仅需要配置或编写少量代码便可完成从模型训练到模型评估,1周的工作1天完成,这本身也是一种体验上的优化。

类似的还有UNIT智能对话与定制服务平台,在本次升级后数据标注成本的进一步降低30%以上。重点场景预置的场景化解决方案,能够帮助开发者以更低的成本、更高的效率完成智能对话系统的构建,而这种构建也不需要长篇大论、逻辑复杂的编程,只需要调用对应的模块即可。

3、既要单环节强化,也要全链条深入

“既全且深”在过去是NLP开发者对平台服务的美好理想,既能够提供全面的服务,每个细分服务还能够做到足够得深。

现在,这种理想已经变成现实,它同样得益于技术和服务的长期积累。

以百度NLP智能创作平台为例,该平台一年多以来的自动创作文章累计200万+,相当一个10人团队至少工作45年;“图文转视频能力”上线4个月,被7000多家客户使用,自动创作短视频15万,相当于一个人至少要工作100年。

在此基础上,智能创作平台进行了再升级,一次性推出囊括智能策划、智能采编和智能审校全链条的3大场景方案,而每个环节,都十分深度而不只是简单的布局。

例如,在智能采编环节,借助融合文本、视觉、语音的跨模态AI技术,一方面提供文章创作多样、易用的工具,另一方面,还整合了视频编辑、图文与视频互相转换等视频生产实用能力,实际应用可以帮助视频生产速度达到原有的6倍。

可以认为,在百度等巨头的积极探索下,过去NLP领域那些不可能、充满矛盾的产业应用需求,最终将变得稀松平常。

三、让AI强者恒强的“自增强循环”,这次AI巨头又有了新的玩法

在AI发展领域有典型的来自实践的“自增强循环”现象,即在深度积累下不断在自身业务、产业领域进行实践,将成果反馈,推动算法、数据等不断进步,自我强化,对行业的领先像滚雪球一样越滚越大。

例如,百度NLP领先行业的UNIT,自发布以来,2.7万多开发者在平台累积知识条目总量2.4亿,支撑了超过10万个智能对话应用,与最终用户总计进行了超过4200亿次交互。

这些实践的强化,反过来让UNIT能力更上一层楼,推出更多更低成本、更高效率、更好开发体验的服务,这种正向循环让UNIT超越竞品越来越多。

所谓的“强者恒强”,其实根本上就是来自于这种“自增强循环”。

现在,百度在NLP领域推进这种“自增强循环”又多了一种玩法。如果说过去的“自增强”过程是在自己的地盘中实践推进,那么百度此次推出的行业计划,则带有联合整个行业共同完成“自增强循环”的意味。

此次百度NLP推出的千言开源数据计划十分典型。

在百度的构想中,它试图“团结”来自国内多家高校和企业的数据资源研发者,共同建设这样一个数据项目,在更多的“同行”加入下,获得更丰富的任务类型、更多的开源数据集合。

这样做的好处,是让计划中的每一个参与者都能享受到整个行业的数据和模型积累,从复杂知识构建、语义理解、知识融合、多模态融合等角度推动技术的进步,毕竟,百度NLP积累再多,也少于整个行业,而NLP又是一个极度依赖积累的AI垂直领域。

千言第一期总共涵盖了7大任务,20多个中文开源数据集合,这会是百度另一种“自增强循环”的开启,只不过,它依靠的是整个行业横向而不是自身实践纵向的推进力量,也将惠及整个行业。

通过行业共建的方式汲取精华获得群策群力的成长,这是百度AI、NLP更大的手笔。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读