加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

逆天的语言AI模型来了!编故事以假乱真,问答翻译写摘要都行

发布时间:2019-02-16 05:36:24 所属栏目:建站 来源:关注前沿科技
导读:本文经AI新媒体量子位(公众号 ID: QbitAI)授权转载,转载请联系出处 AI一本正经的胡编起来,已经逼真的让人不敢相信。 刚刚,OpenAI发布了一个逆天的语言AI,整个模型包含15亿个参数。 这个AI写起文章来文思泉涌毫无违和感,无需针对性训练就能横扫各种
副标题[/!--empirenews.page--]

逆天的语言AI模型来了!编故事以假乱真,问答翻译写摘要都行

本文经AI新媒体量子位(公众号 ID: QbitAI)授权转载,转载请联系出处”

AI一本正经的“胡编”起来,已经逼真的让人不敢相信。

刚刚,OpenAI发布了一个“逆天”的语言AI,整个模型包含15亿个参数。

这个AI写起文章来文思泉涌毫无违和感,无需针对性训练就能横扫各种特定领域的语言建模任务,还具备阅读理解、问答、生成文章摘要、翻译等等能力。

因为假新闻实在编的太真实,OpenAI说:我们不敢放出完整模型。

它的作品究竟什么样呢?

人类只给了它两句话的开头:

科学家们有个令人震惊的发现,在安第斯山脉一个偏远且没被开发过的山谷里,生活着一群独角兽。更加让人讶异的是,这些独角兽说着完美的英文。

逆天的语言AI模型来了!编故事以假乱真,问答翻译写摘要都行

AI就顺着这胡言乱语的设定,一本正经地编了下去 (欲赏全篇请见文末) :

这些生物有着独特的角,科学家们就以此为它们命名,叫Ovid’s Unicorn。长着四只角的银白色生物,在这之前并不为科学界所知。

……

虽然,这些生物的起源还不清楚,但有些人相信,它们是一个人和一个独角兽相交而诞生的,那时人类文明还不存在。Pérez教授说:“在南美洲,这样的现象很常见。”

……

逆天的语言AI模型来了!编故事以假乱真,问答翻译写摘要都行

逆天的语言AI模型来了!编故事以假乱真,问答翻译写摘要都行

天马行空却言之凿凿。几乎没有矛盾信息,甚至在结尾严谨地表明:

如果要确认它们是消失种族的后裔,DNA检测可能是唯一的方法。

这位AI写手,名叫GPT-2。

它训练用的数据,都是人类写作的原始文本。无监督学习过程,纯洁无污染。

对此,深度学习之父Hinton献出了他注册Twitter以来的第三次评论:

逆天的语言AI模型来了!编故事以假乱真,问答翻译写摘要都行

这应该能让硅谷的独角兽们生成更好的英语了。

看来是读了AI编的独角兽新闻报道有感。

逆天的语言AI模型来了!编故事以假乱真,问答翻译写摘要都行

DeepMind研究员、星际AI AlphaStar的主要爸爸Oriol Vinyals也大肆赞美了同行:

规模化+计算力,深度学习不会让人失望。恭喜Alec Radford、Ilya Sutskever等等!

由于AI生成的假消息太过真实,OpenAI的开源动作也变得十分谨慎。与以往不同,这一次开源的内容,没有完整的预训练模型,只放出了一个1.17亿参数的“缩小版”。

媒体也纷纷认为,GPT-2是个危险的存在:

逆天的语言AI模型来了!编故事以假乱真,问答翻译写摘要都行

来自The Verge

如果所托非人,GPT2便会成为一台挖掘机,挖出无尽的痛苦和仇恨。

而且,造假新闻只是GPT-2的冰山一角,你想要的技能它都有。

在不需要对任何其他任务进行针对性训练的情况下,GPT-2还能完成阅读理解、常识推理、文字预测、文章总结等多种任务,效果好到让人怀疑:这个模型后面单怕藏着一位语文老师吧!

语言模型全能王

逆天的语言AI模型来了!编故事以假乱真,问答翻译写摘要都行

这位N项全能的“语文老师”,就是“语言建模”(language modeling)。

OpenAI的研究人员表示,在各种特定领域数据集的语言建模测试中,GPT-2都取得了优异的分数。作为一个没有经过任何领域数据专门训练的模型,它的表现,比那些专为特定领域打造的模型还要好。

下图为研究人员统计的不同类型任务的成绩对比图,其中,(+)表示此领域得分越高越好,(-)表示此领域得分越低越好:

逆天的语言AI模型来了!编故事以假乱真,问答翻译写摘要都行

△ GPT-2在不同语言建模任务上的测试结果(从左到右:数据集名称、指标类型、GPT-2测试结果、此前最好结果、人类水平)

除了能用于语言建模,GPT-2在问答、阅读理解、摘要生成、翻译等等任务上,无需微调就能去的非常好的成绩。

从人类的感官角度来评判,GPT-2的效果也出奇得好。

不信?不信一起来考考它。

第一题(阅读理解):一篇让小学四年级学生卡了半天的阅读理解

阅读下列材料回答问题:

3月24日,火炬在希腊奥林匹亚奥林匹克运动会的发源地点燃后,将传递至雅典的帕纳辛奈科体育场,并于3月31日传递至北京。从北京开始,火炬将经过六大洲,途经丝绸之路沿线的城市。此次接力还会将火炬送上珠穆朗玛峰,这是接力的最后一站。

  • 问题1:接力从哪里开始?
  • 问题2:这个地方有什么值得注意的吗?
  • 问题3:这场接力进行了多少天了?
  • 问题4:他们有没有访问过任何著名的地标?

这样一段考验对时政、地理和生词理解能力的阅读理解,一个成年人认真读下来尚且还需要转换思维多思考一番,但对GPT-2来说,找出正确答案是分分钟的事:

希腊奥林匹亚;是奥林匹克运动会的发源地;七天;帕纳辛奈科体育场。

第一题:全对✅

第二题(常识推理):容易让人摸不着头脑的模糊代词

阅读下面句子,回答“它”指代的部分:

1、奖杯放不进棕色旅行箱,因为它太大了。

2、奖杯放不进棕色手提箱,因为它太小了

5秒思考,请作答。

这两句“含糊不清”的句子并没有难到GPT-2,它的答案分别为奖杯、行李箱。

第二题,没毛病✅。

第三题(文章总结):考试中让中学生头大的主旨概括

阅读下类材料,概括文章内容。

(这份材料来自外媒Daily Mail的一篇报道,全文字图交杂,Word粗略统计共1300多字。文章篇幅限制,量子位在这里把材料“阉割”了)

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读