从想法到实干，2018年13项NLP绝美新研究

发布时间：2019-01-02 09:15:38 所属栏目：移动互联来源：佚名

导读：在即将过去的 2018 年中，自然语言处理有很多令人激动的想法与工具。从概念观点到实战训练，它们为 NLP 注入了新鲜的活力。前一段时间，Sebastian Ruder 介绍了他心中 10 个最有影响力的想法，并且每一个都提供了具体论文与核心思想。正如 Ruder 所说，他

这篇论文在更好理解预训练语言模型表征方面做出了很大贡献。他们广泛地研究了精心设计的无监督和有监督任务上学习到的单词和跨度表征。结果发现：预训练表征会在较低层学习到与低级形态和句法任务相关的任务，在较高层学习到更大范围的语义。对我而言，该研究表明了预训练语言模型确实能捕捉文本的相似属性，正如计算机视觉模型在 ImageNet 上预训练后，能捕捉图像之间的相似属性。

BiLSTM 和 Transformer 的预训练表征的每一层的性能，从左到右依次是：POS 标记、选区解析和无监督共指解析 (Peters et al. 2018 http://aclweb.org/anthology/D18-1179 )。

7. 辅助任务

在很多设置中，我们都看到人们越来越多使用带有仔细选择的辅助任务的多任务学习方法。其中最重要的一个案例是BERT。其使用了下一句预测来实现优越性能（近期被用在 Skip-thoughts 以及 Quick-thoughts 等）。有代表性的研究成果包括：

论文 1：Syntactic Scaffolds for Semantic Structures
论文链接： http://aclweb.org/anthology/D18-1412

这篇论文通过为每个跨度预测对应的句法成分类型，以此提出了一种预训练跨度表征的辅助任务。尽管在概念上很简单，该辅助任务可以在跨度级预测任务中取得极大提升，例如语义角色标注和共指解析等。该论文表明，通过目标任务在所需级别学习的专用表征有极大的用处。

论文 2：pair2vec: Compositional Word-Pair Embeddings for Cross-Sentence Inference
论文链接： https://arxiv.org/abs/1810.08854

依据相似的思路，这篇论文通过最大化词对以及语境的逐点互信息预训练词对表征。相比更加通用的表征（例如语言建模），这鼓励模型学习更有意义的词对表征。这些预训练表征在诸如 SQuAD、和 MultiNLI 等需要跨句推理的任务中很有效。我们可以期待看到更多可捕捉适用于特定下游任务的预训练模型，并且和更加通用的任务互补（例如语言建模）。

从想法到实干，2018年13项NLP绝美新研究

OntoNotes 的句法、命题语料库和共指标注。命题语料库SRL参数和共指在句法成分之上标注。几乎每个参数都与句法成分有关 (Swayamdipta et al., 2018 http://aclweb.org/anthology/D18-1412 )

8.半监督学习结合迁移学习

最近，迁移学习取得最新进展，我们不应该忘记使用目标任务特定数据更明确的方式。其实，预训练表征与多种形式的半监督学习是互补的。已经有研究者探索半监督学习的一个特定类别——自标注方法。有代表性的研究包括：

论文：Semi-Supervised Sequence Modeling with Cross-View Training
论文链接： http://aclweb.org/anthology/D18-1217

这篇论文表明，一个概念上非常简单的想法——即确保对不同输入视图的预测与主模型的预测一致——可以在一系列不同的任务中获得收益。这一想法与 word dropout 类似，但允许利用未标注数据来加强模型的鲁棒性。与 mean teacher 等其他 self-ensembling 模型相比，它是专门为特定 NLP 任务设计的。

从想法到实干，2018年13项NLP绝美新研究

辅助预测模块看到的输入：辅助 1：They traveled to __________________. 辅助 2：They traveled to Washington _______. 辅助 3： _____________ Washington by plane. 辅助 4： ________________________ by plane