加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

AI大模型,是达成强人工智能的希望吗?

发布时间:2022-03-04 19:53:43 所属栏目:大数据 来源:互联网
导读:从2020年开始,国际最顶尖的AI技术发展,愈来愈像一场比拼资金与人才的军备竞赛。 2020年,OpenAI发布NLP预训练模型GPT-3,光论文就有72页,作者多达31人,该模型参数1750亿,耗资1200万美元; 2021年1月,谷歌发布首个万亿级模型Switch Transformer,宣布突
      从2020年开始,国际最顶尖的AI技术发展,愈来愈像一场比拼资金与人才的军备竞赛。
 
     2020年,OpenAI发布NLP预训练模型GPT-3,光论文就有72页,作者多达31人,该模型参数1750亿,耗资1200万美元;
 
     2021年1月,谷歌发布首个万亿级模型Switch Transformer,宣布突破了GPT-3参数记录;
 
     4月,华为盘古大模型参数规模达到千亿级别,定位于中文语言预训练模型;
 
11月,微软和英伟达在烧坏了4480块CPU后,完成了5300亿参数的自然语言生成模型(MT-NLG),一举拿下单体Transformer语言模型界“最大”和“最强”两个称号;
 
今年1月,Meta宣布要与英伟达打造AI超级计算机RSC,RSC每秒运算可达50亿次,算力可以排到全球前四的水平。
 
除此之外,阿里、浪潮、北京智源研究院等,均发布了最新产品,平均参数过百亿。
 
看起来,这些预训练模型的参数规模没有最大,只有更大,且正以远超摩尔定律的速度增长。其在对话、语义识别方面的表现,一次次刷新人们的认知。
 
本文,我们试图回答三个问题:
 
1. AI大模型,越大越好吗?
 
2. 大模型的技术瓶颈在哪里?
 
3. 它是实现强人工智能的希望吗?
 
一、大力出奇迹
 
人工智能的上一个里程碑出现在2020年。
 
这一年,由OpenAI公司开发的GPT-3横空出世,获得了“互联网原子弹”,“人工智能界的卡丽熙”,“算力吞噬者”,“下岗工人制造机”,“幼年期的天网”等一系列外号。它的惊艳表现包括但不限于:
 
有开发者给GPT-3 做了图灵测试,发现GPT-3对答如流,正常得不像个机器。“如果在十年前用同样的问题做测试,我会认为答题者一定是人。现在,我们不能再以为AI回答不了常识性的问题了。”
  
“壕无人性”的结果,创造出两个里程碑意义:
 
首先,它本身的存在,验证了参数增长、训练数据量增大,对AI模型的重要意义,“炼大模型”,的确能让AI取得突破性效果;
 
其次,它使用了小样本学习(Few-shot Learning)方法,令预训练模型在不必使用大量标记的训练数据,并持续微调的情况下,仅仅只要给出任务描述,并给出几个从输入到输出示例,便能自动执行人物。这意味着,它将突破AI碎片化难题,让后续开发者得以在巨人肩膀上发展,而不用针对一个个场景“平地起高楼”。
 
GPT-3之后,AI大模型军备赛才真正加速打响。一年之内,有头有脸的巨头争相拿出了成绩,秀组足肌肉。国外有谷歌、微软、Meta等巨头,国内如华为、阿里、浪潮等企业均下场参战,模型平均参数上百亿。
 
从规模上看,巨头的模型一个比一个厉害,突破竞速赛好不热闹。不过“内里”有差别,不同模型参数无法简单对比。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读