加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 移动互联 > 正文

从想法到实干,2018年13项NLP绝美新研究

发布时间:2019-01-02 09:15:38 所属栏目:移动互联 来源:佚名
导读:在即将过去的 2018 年中,自然语言处理有很多令人激动的想法与工具。从概念观点到实战训练,它们为 NLP 注入了新鲜的活力。 前一段时间,Sebastian Ruder 介绍了他心中 10 个最有影响力的想法,并且每一个都提供了具体论文与核心思想。正如 Ruder 所说,他

该论文有很多喜人的地方:在句法与语义任务上同时训练一个 Transformer;训练时加入高质量解析的能力以及领域外评估。通过训练一个注意力 head 来关注每个 token 的 syntactic parents,这篇论文也正则化了 Transformer 的多 head 注意力,使其对句法更为敏感。我们未来可能会看到更多 Transformer 注意 head 示例,做为专注输入特定方面的辅助词预测器。

从想法到实干,2018年13项NLP绝美新研究

过去十年的 PropBank 语义角色标记。在领域外数据上,Linguistically-Informed Self-Attention (LISA) 方法与其他方法的对比。

不论是采用 Mask 的语言模型还是通过回译的无监督机器翻译,这 10 个想法都非常优美。但是在实际应用中,我们更希望直接使用已有的工具构建高效应用,只有这样,这些想法才能转化为真正有意思的东西。

11. 上百种预训练中文词向量

做自然语言处理,词嵌入基本是绕不开的步骤,各种任务都需要归结到词层面才能继续计算。因此对于国内自然语言处理的研究者而言,中文词向量语料库是需求很大的资源。为此,北京师范大学等机构的研究者开源了「中文词向量语料库」,该库包含经过数十种用各领域语料(百度百科、维基百科、人民日报 1947-2017、知乎、微博、文学、金融、古汉语等)训练的词向量,涵盖各领域,且包含多种训练设置。

中文词向量项目地址: https://github.com/Embedding/Chinese-Word-Vectors

该项目提供使用不同表征(稀疏和密集)、上下文特征(单词、n-gram、字符等)以及语料库训练的中文词向量(嵌入)。我们可以轻松获得具有不同属性的预训练向量,并将它们用于各类下游任务。

从想法到实干,,2018年13项NLP绝美新研究

12.BERT开源实现

尽管如前所述BERT的效果惊人,但预训练所需要的计算力同样惊人,一般的开发者基本就不要想着能复现了。BERT的作者在 Reddit 上也表示预训练的计算量非常大,Jacob 说:「OpenAI的 Transformer 有 12 层、768 个隐藏单元,他们使用 8 块 P100 在 8 亿词量的数据集上训练 40 个 Epoch 需要一个月,而BERT-Large 模型有 24 层、2014 个隐藏单元,它们在有 33 亿词量的数据集上需要训练 40 个 Epoch,因此在 8 块 P100 上可能需要 1 年?16 Cloud TPU 已经是非常大的计算力了。」

但是,谷歌团队开源了BERT的预训练模型,我们可以将它们用于不同的 NLP 任务。这节省了我们大量计算力,同时还能提升已有模型的效果,因此做 NLP 任务前,你可以先用预训练的BERT试试水?

BERT实现地址: https://github.com/google-research/bert

从想法到实干,2018年13项NLP绝美新研究

其实目前已经有很多开发者将BERT预训练模型应用到它们自己的项目中,包括抽取句向量、句子相似性判断或情感分析等。

13. Facebook 开源 NLP 建模框架 PyText,从论文到产品部署只需数天

为了降低人们创建、部署自然语言处理系统的难度,Facebook 开源了一个建模框架—— PyText ,它模糊了实验与大规模部署之间的界限。PyTex 是 Facebook 正在使用的主要自然语言处理(NLP)建模框架,每天为 Facebook 及其应用程序系列的用户提供超过 10 亿次 AI 任务处理。这一框架基于 PyTorch,可以 1)简化工作流程,加快实验进度;2)提供一大批预构建的模型架构和用于文本处理和词汇管理的工具,以促进大规模部署;3)提供利用 PyTorch 生态系统的能力,包括由 NLP 社区中的研究人员、工程师预构建的模型和工具。利用该框架,Facebook 在几天内就实现了 NLP 模型从理念到完整实施的整个过程,还部署了依赖多任务学习的复杂模型。

Yann LeCun 对此介绍道,「PyText 是一个工业级的开源 NLP 工具包,可用于在 PyTorch 中开发 NLP 模型,并通过 ONNX 部署。其预训练模型包括文本分类、序列标注等。」

项目地址: https://github.com/facebookresearch/pytext

从想法到实干,2018年13项NLP绝美新研究

参考链接: http://ruder.io/10-exciting-ideas-of-2018-in-nlp/

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读