500亿参数，支持103种语言：谷歌推出「全球文字翻译」模型

发布时间：2019-10-13 10:36:20 所属栏目：建站来源：机器之心编译

导读：由于缺乏平行数据，小语种的翻译一直是一大难题。来自谷歌的研究者提出了一种能够翻译 103 种语言的大规模多语言神经机器翻译模型，在数据丰富和匮乏的语种翻译中都实现了显著的性能提升。他们在 250 亿个的句子对上进行训练，参数量超过 500 亿。在过去

副标题[/!--empirenews.page--]

由于缺乏平行数据，小语种的翻译一直是一大难题。来自谷歌的研究者提出了一种能够翻译 103 种语言的大规模多语言神经机器翻译模型，在数据丰富和匮乏的语种翻译中都实现了显著的性能提升。他们在 250 亿个的句子对上进行训练，参数量超过 500 亿。

500äº¿å‚æ•°ï¼Œæ”¯æŒ103ç§è¯è¨€ï¼šè°·æŒæŽ¨å‡ºã€Œå…¨çƒæ–‡å—ç¿»è¯‘ã€æ¨¡åž‹

在过去的几年里，由于神经机器翻译（NMT）的发展，机器翻译（MT）系统的质量得到了显著提升，打破了世界各地的语言障碍。但 NMT 的成功很大程度上要归功于有监督的训练数据。那么，数据较少甚至没有数据的语言该怎么办呢？多语言 NMT 是一种有效的解决方法，它有一种归纳偏见，即「来自一种语言的学习信号应该有助于提高其他语言的翻译质量」。

多语言机器翻译使用一种语言模型处理多种语言。数据匮乏语种多语言训练的成功已经应用于自动语言识别、文本转语音等系统。谷歌的研究者之前探索过扩展单个神经网络可以学习的语言数量，同时控制每种语言的训练数据量。但如果将所有限制因素都移除会发生什么？我们能否使用所有可用数据训练单个模型——即使这些数据的大小、脚本、复杂度和领域都各不相同。

在一篇名为「Massively Multilingual Neural Machine Translation in the Wild: Findings and Challenges」的论文和后续几篇论文中，谷歌的研究者们在超过 250 亿的句子对上训练了一个 NMT 模型，这些句子是 100 多种语言与英语的互译，参数量超过 500 亿。他们得到了一种大规模多语言、大规模神经机器翻译方法 M4，在数据丰富和匮乏的语言中都实现了显著的性能提升，可以轻松适应单个领域/语言，同时能够有效应用于跨语言下游迁移任务。

大规模多语言机器翻译

尽管跨语言对数据倾斜是 NMT 任务中的一大挑战，但这种倾斜也为研究迁移创造了一种理想情景，在一种语言上训练得到的信息可以应用到其他语言的翻译中。法语、德语、西班牙语等数据丰富的语言占据分布的一端，提供了数十亿的平行语料；约鲁巴语、信德语、夏威夷语等数据匮乏的语言占据分布的另一端，只有几万的语料。

500亿参数，支持103种语言：谷歌推出「全球文字翻译」模型

所有语言对的数据分布（取对数）和在每个特定语言对上训练得到的双语基线的相对翻译质量（BLEU 分数）。

使用所有可用数据（来自 103 种语言的 250 亿个样本）训练之后，研究者观察到，数据匮乏语言有着强烈的正向迁移倾向，30 多种语言的翻译质量得到了显著提高，数据分布尾部的 BLEU 分数平均提高了 5 分。效果是已知的，但却非常鼓舞人心，因为比较是在双语基线（即只在特定语言对上训练得到的模型）和单个多语言模型之间进行的，后者拥有类似于单个双语模型的表征能力。这一发现表明，大规模多语言模型可以有效泛化，而且能够捕捉大量语言之间的表征相似性。

500亿参数，支持103种语言：谷歌推出「全球文字翻译」模型

单个大规模多语言模型与双语基线模型之间的翻译质量对比。

在一篇名为「Investigating Multilingual NMT Representations at Scale」的 EMNLP 2019 论文中，谷歌的研究者比较了多语言模型在多种语言中的表征能力。他们发现，多语言模型无需外部限制就能学习在语言学上相似的语言的共享表征，验证了长期以来利用这些相似性的直觉和实验结果。

在「Evaluating the Cross-Lingual Effectiveness of Massively Multilingual Neural Machine Translation」一文中，研究者进一步证明了这些学习到的表征在下游任务中跨语言迁移的有效性。

500äº¿å‚æ•°ï¼Œæ”¯æŒ103ç§è¯è¨€ï¼šè°·æŒæŽ¨å‡ºã€Œå…¨çƒæ–‡å—ç¿»è¯‘ã€æ¨¡åž‹

所有 103 种语言编码表征聚类的可视化，基于表征相似性。不同的颜色代表不同的语系。

构建大规模神经网络

在增加数据匮乏的语种数量之后，数据丰富的语种翻译质量开始下降。这种下降在多任务设置中可以被观察到，由任务间的竞争和迁移的单向性引起（即从数据丰富的语言到数据匮乏的语言）。研究人员探索了能够更好地学习和实现能力控制的算法，以此来解决这种负迁移问题。在此过程中，他们还通过增加神经网络模型的参数量来提高其表征能力，以此来提高数据丰富语言的翻译质量。

提高神经网络的能力还有其他几种方法，包括添加层数、增加隐藏表征的宽度等。为了训练更深的翻译模型，研究者利用 GPipe 来训练 128 层、参数超过 60 亿的 Transformer。模型能力的提高使得所有语言的翻译质量都得到了显著提升，BLEU 分数平均提高了 5 分。他们还研究了深度网络的其他性质，包括深度-宽度权衡、可训练性难题以及将 transformer 扩展到 1500 多层、840 亿参数的设计选择等。

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

杭州网站优化的几个注	网站优化效果不好怎么
网站结构怎么优化？对	网站文章内容持续更新