加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

AI巨头看好的兵家必争之地,争相共促繁华

发布时间:2021-10-20 10:22:46 所属栏目:大数据 来源:互联网
导读:近日,一则微软英伟达推最大单体AI语言模型的消息再次将人工智能大模型推向风口浪尖。而这距全球最大中文单体AI语言模型浪潮源1.0发布尚不足半个月时间。不仅如此,关注该领域的人士都会发现,近年来BERT、GPT-3等大规模预训练模型取得了巨大成功,成为人工
近日,一则“微软英伟达推最大单体AI语言模型”的消息再次将人工智能大模型推向风口浪尖。而这距全球最大中文单体AI语言模型浪潮源1.0发布尚不足半个月时间。不仅如此,关注该领域的人士都会发现,近年来BERT、GPT-3等大规模预训练模型取得了巨大成功,成为人工智能领域的一个里程碑,同时也吸引谷歌、微软、浪潮等AI产业巨擘纷纷入局。
 
从去年OpenAI的GPT-3的1750亿参数大模型开始,陆续有Google Switch Transformer 1.6万亿混合模型,阿里达摩院M6 的1万亿参数混合模型,浪潮源1.0的2457亿单体模型和微软英伟达Megatron-Turing的5300亿参数单体模型等,AI大模型如雨后春笋,不断涌现。
 
而这一切的开端,是OpenAI 的GPT-3,该模型一经发表就引发了AI界的广泛关注。因为这一版本有着1750 亿的巨大参数量,比以前的GPT-2高100倍,该模型经过将近500G高质量数据集的预训练后,能够写小说、编剧本、敲代码。“无所不能”的GPT-3吸引了全球数以万计开发人员,目前有300多种应用程序在使用 GPT-3,每天生产 45 亿个字符。GPT-3的惊人发展,不断验证“大块头有大智慧”,其缔造者OpenAI也掀起了一场“大”模型的全球“竞赛”。
 
就在前两天,微软和英伟达联合推出的Megatron-Turing自然语言生成模型(MT-NLG)再度以5300亿参数量刷新了单体模型参数量纪录。该模型汇集了微软DeepSpeed项目和英伟达Megatron项目在并行训练和超大型人工智能模型的训练优化的成功经验,基于105层Transformer的MT-NLG在zero-shot、one-shot和few-shot等方面对SOTA模型进行改进,通过具有更多模型参数、更多训练数据和更多训练时间,使用835GB数据集的预训练后,获得了对语言更丰富、更细致的理解,在很多数据集上也展现出了不错的zero–shot或few-shot泛化性能。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读