加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 移动互联 > 正文

从想法到实干,2018年13项NLP绝美新研究

发布时间:2019-01-02 09:15:38 所属栏目:移动互联 来源:佚名
导读:在即将过去的 2018 年中,自然语言处理有很多令人激动的想法与工具。从概念观点到实战训练,它们为 NLP 注入了新鲜的活力。 前一段时间,Sebastian Ruder 介绍了他心中 10 个最有影响力的想法,并且每一个都提供了具体论文与核心思想。正如 Ruder 所说,他

这篇论文提出了广受好评的 ELMo,除了令人印象深刻的实验结果外,最吸引人的就是论文的分析部分,它剔除了各种因素的影响,并对表征所捕获的信息进行了分析。在下图左中语义消歧(WSD)执行得很好,它们都表明语言模型提供的语义消歧和词性标注(POS)表现都接近当前最优水平。

从想法到实干,2018年13项NLP绝美新研究

第一层和第二层双向语言模型的语义消歧(左)和词性标注(右)与基线模型对比的结果。

3. 常识推理数据集

将常识融入模型是 NLP 最重要的研究方向之一。然而,创建好的数据集并非易事,即使是流行的数据集也存在很大的偏好问题。今年已经出现了一些试图教机器学习常识的数据集,如华盛顿大学的 Event2Mind 和 SWAG。但 SWAG 很快就被BERT打败了。有代表性的研究成果包括:

  • 论文:From Recognition to Cognition: Visual Commonsense Reasoning

  • 论文地址: https://arxiv.org/abs/1811.10830

这是首个包含每个答案的基本原理(解释)的可视化 QA 数据集。而且,回答问题需要复杂的推理。创作者竭尽全力解决可能出现的偏好,确保每个答案作为正确答案的先验概率为 25%(每个答案在整个数据集中出现 4 次,其中 3 次作为错误答案,1 次作为正确答案);这需要利用可以计算相关性和相似性的模型来解决约束优化问题。

从想法到实干,2018年13项NLP绝美新研究

给定一幅图像、一系列地点和一个问题,模型必须回答该问题,并提供合理的推理解释答案为什么是正确的(Zellers et al., 2018)

4.元学习

元学习 是目前机器学习领域一个令人振奋的研究趋势,它解决的是学习如何学习的问题。元学习在少样本学习、强化学习和机器人学方面有很多应用,其中最突出的应用是与模型无关的元学习(model-agnostic meta-learning,MAML),但在 NLP 中的成功应用却非常少。元学习在训练样本有限时非常有用。有代表性的研究成果包括:

  • 论文 1:Meta-Learning for Low-Resource Neural Machine Translation

  • 论文链接: http://aclweb.org/anthology/D18-1398

作者利用 MAML 来学习一个好的用于翻译的初始化,将每个语言对看成一个独立的元任务。资源较少的语言或许是元学习在 NLP 领域最有应用价值的场景。将多语言迁移学习(如多语言BERT)、无监督学习和元学习相结合是一个有前景的研究方向。

从想法到实干,2018年13项NLP绝美新研究

迁移学习、多原因迁移学习和元学习之间的差异。实线:初始化的学习。虚线:微调路径。

  • 论文 2:Meta-Learning a Dynamical Language Model

  • 论文地址: https://arxiv.org/abs/1803.10631

作者提出,用于优化神经网络模型的元学习器的行为和循环神经网络类似,它会提取一系列模型训练过程中的参数和梯度作为输入序列,并根据这个输入序列计算得到一个输出序列(更新后的模型参数序列)。他们在论文中详细描述了该相似性,并研究了将元学习器用于神经网络语言模型中,以实现中期记忆:经过学习,元学习器能够在标准 RNN(如 LSTM)的权重中,编码中期记忆(除了短期记忆在 LSTM 隐藏状态中的传统编码方式以外)。

从想法到实干,2018年13项NLP绝美新研究

他们的元学习语言模型由 3 层记忆层级组成,自下而上分别是:标准 LSTM、用于更新 LSTM权重以存储中期记忆的元学习器,以及一个长期静态记忆。他们发现,元学习语言模型可以通过训练来编码最近输入的记忆,就像一篇维基百科文章的开始部分对预测文章的结尾部分非常有帮助一样。

5. 鲁棒无监督方法

今年,我们观察到,跨语言嵌入方法在语言相似性低时会失效。这是迁移学习中的常见现象,源语言和目标语言设置(例如,域适应中的域、持续学习和多任务学习中的任务)之间存在差异,导致模型退化或失效。因此,使模型对这些变化更加鲁棒非常重要。有代表性的研究成果包括:

  • 论文:A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings

  • 论文链接: http://www.aclweb.org/anthology/P18-1073

这篇论文根据其理解构建了一个更好的初始化,而没有使用元学习作为初始化。特别地,他们将两种语言中拥有相似词分布的单词配对。这是从分析中利用领域知识和 insight 以使模型更加鲁棒的绝佳范例。

从想法到实干,2018年13项NLP绝美新研究

三个单词的相似性分布:与不相关的单词(「two」和「cane」(狗))相比,等效翻译(「two」和「due」)有更加相似的词分布。(Artexte et al. 2018 http://www.aclweb.org/anthology/P18-1073)

6. 理解表征

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读