加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 正文

谷歌提出可量化评估NLG模型性能的BLEURT指标

发布时间:2020-05-28 21:21:36 所属栏目:创业 来源:互联网
导读:(来自:MIT Tech Review) 谷歌研究人员称,BLEURT 是一种针对自然语言模型(NLG)的全新自动化评估指标,可为不同模型打出可靠的评分,结果接近、甚至超越了人类指标。 据悉,BLEURT 的核心为机器学习。对于任何 ML 模型,最重要的就是训练用的数据有多

谷歌提出可量化评估NLG模型性能的BLEURT指标

(来自:MIT Tech Review)

谷歌研究人员称,BLEURT 是一种针对自然语言模型(NLG)的全新自动化评估指标,可为不同模型打出可靠的评分,结果接近、甚至超越了人类指标。

据悉,BLEURT 的核心为机器学习。对于任何 ML 模型,最重要的就是训练用的数据有多丰富。然而对于 NLG 模型来说,其训练数据是相当有限的。

谷歌提出可量化评估NLG模型性能的BLEURT指标

实际上,在 WMT Metrics Task 数据集中(目前人类汇聚的最大集合),也仅收集了涵盖新闻领域的大约 26 万数据。

若将之用作唯一的训练数据集,那 WMT 度量任务数据集将失去训练模型的通用性和鲁棒性。为攻克这一问题,研究人员采取了转移学习的方法。

首先,研究团队使用了 BERT 的上下文词,且其已顺利聚合到 Yis 和 BERTscore 等 NLG 量化工具中。

接着,研究人员介绍了一种新颖的预训练方案,以提升 BLEURT 的鲁棒性和准确度,同时有助于应对模型的质量偏移。

谷歌提出可量化评估NLG模型性能的BLEURT指标

在微调人工量化标准前,BLEURT 借助了数以百万计的合成句子,对 NLG 模型展开了“预热”训练。其通过来自维基百科的句子、加上随机扰动来生成训练数据。

研究团队未手机人工评分,而是使用了相关文献(含 BLEU)中的指标与模型集合,能够以极低的代价来扩大训练示例的数量,然后对 BLEURT 进行了两次预训练。

其一阶段目标是语言建模,二阶段目标则是评估 NLG 模型,此后团队在 WMT 指标数据集上对模型进行了微调。一旦受过训练,BLEURT 就会试着与竞争方案对抗,以证明其由于当前的指标。

谷歌提出可量化评估NLG模型性能的BLEURT指标

据悉,BLUERT 在 Python 3 上运行,且依赖于 TensorFlow,详情可参阅 GitHub 项目介绍页(传送门)。有关这项研究的详情,可翻看 ArXiv 上的预印本。

最后,研究人员还总结了其它结果,比如 BLEURT 试图“捕获表面重叠以外的 NLG 质量”,该指标在两项学术基准评估中获得了 SOTA 的评价。

本文素材来自互联网

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读