加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

打破MLPerf基准测试16项AI性能纪录 NVIDIA迎来AI全新里程碑

发布时间:2020-08-23 06:38:05 所属栏目:大数据 来源:网络整理
导读:至顶网计算频道 07月30日 新闻消息(文/李祥敬):当前,AI芯片的功能日益复杂化、多样化,一方面,芯片厂商纷纷给出不同的衡量标准,声称其产品在计算性能、单位能耗算力等方面处于行业领先水平;另一方面,用户却关心如何能从厂商给出的信息中判断出芯片
副标题[/!--empirenews.page--]

至顶网计算频道 07月30日 新闻消息(文/李祥敬):当前,AI芯片的功能日益复杂化、多样化,一方面,芯片厂商纷纷给出不同的衡量标准,声称其产品在计算性能、单位能耗算力等方面处于行业领先水平;另一方面,用户却关心如何能从厂商给出的信息中判断出芯片是否能实际满足其真实场景的计算需求。

因此,成立于2018年5月的行业基准测试组织MLPerf推出了MLPerf基准测试,MLPerf基准测试是业内首套衡量机器学习软硬件性能的通用基准,即训练过的神经网络在不同量级的设备(物联网、智能手机、PC、服务器)、各种应用(自动驾驶、NLP、计算机视觉)上处理新数据的速度。MLPerf现有50多家成员,包括谷歌、微软、Facebook、阿里巴巴等企业,以及斯坦福、哈佛、多伦多大学等高校,并跟随AI的发展步伐持续演进。

打破MLPerf基准测试16项AI性能纪录 NVIDIA迎来AI全新里程碑

根据近日发布的MLPerf基准测试结果显示,内置超过2000个NVIDIA A100 GPU的NVIDIA全新DGX SuperPOD在市售商用产品中脱颖而出,在各项针对大规模计算性能的MLPerf基准测试中均取得了优异成绩。此次已是NVIDIA在MLPerf训练测试中连续第三次展现了最强劲的性能。2018年12月,NVIDIA首次在MLPerf训练基准测试中创下了六项纪录,次年7月NVIDIA再次创下八项纪录。

NVIDIA在测试中用到的产品基于最新NVIDIA Ampere架构以及Volta架构。A100 Tensor Core GPU在加速器的全部八项MLPerf基准测试中展现了最快的性能。在实现总体最快的大规模解决方案方面,利用HDR InfiniBand实现多个DGX A100系统互联的庞大集群——DGX SuperPOD系统在性能上,也开创了八项全新里程碑。

NVIDIA是唯一一家在所有测试中均采用市售商用产品的公司。其他大多数提交使用的要么是预览类别(preview category),其所用的产品预计需要几个月后才会面市,要么使用的是研究类别的产品,更是较长一段时间内都不会面市。

速度与规模兼得的DGX SuperPOD架构

打破MLPerf基准测试16项AI性能纪录 NVIDIA迎来AI全新里程碑

NVIDIA在Selene上运行了系统的MLPerf测试,Selene是基于DGX SuperPOD的内部集群。DGX SuperPOD是针对大规模GPU集群的公共参考架构,NVIDIA DGX SuperPOD基于NVIDIA DGX A100系统。NVIDIA DGX A100在一台6U服务器中集成了8颗A100 GPU以及NVIDIA Mellanox HDR InfiniBand网络技术,可以为高性能计算、数据分析和AI工作(包括训练和推理)等多种组合提供加速,并实现快速部署。

Selene最近在TOP500榜单中首次亮相,凭借百亿亿次(exaflops)级别的AI性能,成为美国最快的工业系统。它也是Green500榜单中全球第二大节能系统。除了出色的能效表现,Selene的快速部署能力也是令人刮目相看。工程师们可以使用NVIDIA的模块化参照架构,在不到四周的时间内就能快速构建Selene。4名操作人员仅需不到1个小时,就能组装起一套由20台系统组成的DGX A100集群,创建出一套性能可以达到2petaflops的系统。

目前,客户已经采用这些参考架构来构建自身的DGX POD和DGX SuperPOD。其中包括美国最快的学术领域AI超级计算机HiPerGator,该超级计算机也将成为佛罗里达大学跨学科AI创新的基石。

打破MLPerf基准测试16项AI性能纪录 NVIDIA迎来AI全新里程碑

同时,全球领先的超算中心Argonne国家实验室正在使用DGX A100,寻找抗击COVID-19疫情的方法。Argonne国家实验室是六个首批采用A100 GPU的高性能计算中心中的先行者之一。

DGX SuperPOD现已助力汽车领域的大陆集团、航空航天领域的Lockheed Martin和云计算服务领域的微软等公司取得了良好的业务成果。这些系统的顺利运转,部分得益于其广泛的生态系统对于NVIDIA GPU和DGX支持。

软硬结合一年半内实现4倍性能提升

MLPerf最新基准测试包含两项新的测试和一项经大幅修订的测试。NVIDIA在这三项测试中均取得了优异的成绩。其中,一项基准测试对推荐系统的性能进行了排名。推荐系统是日益普及的一项AI任务。另一项基准测试对使用BERT的对话式AI进行了测试。BERT是现有最复杂的神经网络模型之一。最后,强化学习测试中使用了Mini-go和全尺寸19x19围棋棋盘。该测试是本轮最复杂的测试,内容涵盖从游戏到训练的多项操作。

打破MLPerf基准测试16项AI性能纪录 NVIDIA迎来AI全新里程碑

最新结果表明,NVIDIA聚焦于不断发展跨处理器、网络、软件和系统的AI平台。例如,测试结果显示,相较于首轮MLPerf训练测试中使用的基于V100 GPU的系统,如今的DGX A100系统能够以相同的吞吐率,实现高达4倍的性能提升。同时,得益于最新的软件优化,基于NVIDIA V100的DGX-1系统亦可实现高达2倍的性能提升。

打破MLPerf基准测试16项AI性能纪录 NVIDIA迎来AI全新里程碑

不到两年,整个AI平台的创新就取得了如此优异的成绩。如今,NVIDIA A100 GPU搭配CUDA-X库的软件更新,为通过Mellanox HDR 200Gb/s InfiniBand网络构建的扩展集群注入了强劲动力。HDR InfiniBand可实现极低的延迟和高数据吞吐量,同时通过可扩展分层聚合和缩减协议(SHARP)技术,提供智能深度学习计算加速引擎。

NVIDIA Ampere市场采用速度刷新纪录

A100是首款基于NVIDIA Ampere架构的处理器。得益于其诸多创新,NVIDIA A100集合了AI训练和推理,其性能相比于前代产品提升了高达20倍。

NVIDIA Ampere GPU采用了7纳米制程工艺,包含超过540亿个晶体管,这样的数据足以令人乍舌。而NVIDIA广泛采用的Tensor Core核心也获得了更新,具有TF32的第三代Tensor Core核心能在无需更改任何代码的情况下,使FP32精度下的AI性能提高多达20倍。此外,Tensor Core核心现在支持FP64精度,相比于前代,其为HPC应用所提供的计算力比之前提高了多达2.5倍。

同时,全新Ampere架构搭载了多实例GPU(MIG)、第三代NVIDIA NVLin、结构化稀疏等技术。其中MIG技术可以将单个A100 GPU分割为多达七个独立的GPU,为不同规模的工作提供不同的计算力,以此实现最佳利用率和投资回报率的最大化。而第三代NVIDIA NVLink使GPU之间的高速联接增加至原来的两倍,实现服务器的高效性能扩展。第三代NVIDIA NVLink互联技术能够将多个A100 GPU合并成一个巨大的GPU来执行更大规模的训练任务。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读