加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 业界 > 正文

英伟达连发20枚AI核弹 800亿晶体管GPU 144 核CPU来了

发布时间:2022-03-24 13:29:41 所属栏目:业界 来源:互联网
导读:今日,NVIDIA(英伟达)携基于最新 Hopper 架构的 H100 GPU 系列新品高调回归! 延续以往风格,黄仁勋在主题演讲中继续秒天秒地秒空气,公布多个全球首款。这次他带来一系列堪称地表最强的 AI 重磅新品,随便一个精度的 AI 性能,都比上一代 A100 高出 3~6
  今日,NVIDIA(英伟达)携基于最新 Hopper 架构的 H100 GPU 系列新品高调回归!
  
  延续以往风格,黄仁勋在主题演讲中继续秒天秒地秒空气,公布多个“全球首款”。这次他带来一系列堪称“地表最强”的 AI 重磅新品,随便一个精度的 AI 性能,都比上一代 A100 高出 3~6 倍。
 
  虽然英伟达并购 Arm 的计划刚刚告吹,但它的数据中心“三芯”总路线(GPU+DPU+CPU)依然不动摇 —— 继去年推出其首款数据中心 CPU 后,今天,英伟达又亮出一款基于 Arm 架构的 Grace CPU 超级芯片。
 
  
  凭借押中图形处理和人工智能(AI)两大赛道,英伟达已经成为全球半导体市值 TOP1。截至文章发布时间,英伟达的市值超过 6600 亿美元,比第二名台积电足足多了近 1100 亿美元。
 
  下面就让我们来看看本场 GTC 大会的完整干货:
 
  1、H100 GPU:采用台积电 4N 工艺,拥有 800 亿个晶体管,实现了首个 GPU 机密计算,相比 A100,FP8 性能提升 6 倍,FP16、TF32、FP64 性能各提升 3 倍。
 
  2、全新 NVLink Switch 系统:高度可扩展,支持 256 块 H100 GPU 互连。
 
  3、融合加速器 H100 CNX:耦合 H100 GPU 与 ConnectX-7 和以太网智能网卡,可为 I / O 密集型应用提供更强劲的性能。
 
  4、DGX H100:配备 8 块 H100 GPU,总计有 6400 亿个晶体管,在全新的 FP8 精度下 AI 性能比上一代高 6 倍,可提供 900GB / s 的带宽。
 
  5、DGX SuperPOD:最多由 32 个 DGX H100 组成,AI 算力可达 1EFLOPS。
 
  6、Eos 超级计算机:全球运行速度最快的 AI 超级计算机,配备 576 台 DGX H100 系统,FP8 算力达到 18EFLOPS,FP64 算力达到 275PFLOPS。
 
  7、Grace CPU 超级芯片:由两个 CPU 芯片组成,采用最新 Armv9 架构,拥有 144 个 CPU 核心和 1TB / s 的内存带宽,将于 2023 年上半年供货。
 
  8、为定制芯片集成开放 NVLink:采用先进封装技术,与英伟达芯片上的 PCIe Gen 5 相比,能源效率高 25 倍,面积效率高 90 倍。英伟达还将支持通用小芯片互连传输通道 UCIe 标准。
 
  9、CUDA-X:60 多个针对 CUDA-X 的一系列库、工具和技术的更新。
 
  10、Riva 2.0:对话式 AI 服务 Riva 全面发行,2.0 版本支持识别 7 种语言,可将神经文本转换为不同性别发声的语音。
 
  11、Merlin 1.0:可帮助企业快速构建、部署和扩展先进的 AI 推荐系统。
 
  12、Sionna:一款用于 6G 通信研究的 AI 框架。
 
  13、OVX 与 OVX SuperPod:面向工业数字孪生的数据中心级服务器和超级集群。
 
  14、Spectrum-4:全球首个 400Gbps 端到端网络平台,交换吞吐量比前几代产品高出 4 倍,达到 51.2Tbps。
 
  15、Omniverse Cloud:支持协作者们随时随地实现远程实时协同工作。
 
  16、DRIVE Hyperion 9:汽车参考设计,拥有 14 个摄像头、9 个雷达、3 个激光雷达和 20 个超声传感器,总体传感器数量是上一代的两倍。
 
  17、DRIVE Map:多模态地图引擎,包含摄像头、激光雷达和雷达的数据,同时兼顾安全性。
 
  18、Clara Holoscan MGX:可供医疗设备行业在边缘开发和部署实时 AI 应用的计算平台,AI 算力可达每秒 254~610 万亿次运算。
 
  19、Isaac for AMR:提供自主移动机器人系统参考设计。
 
  20、Jetson AGX Orin 开发者套件:在边缘实现服务器级的 AI 性能。
 
  黄仁勋还介绍了英伟达创建的 NVIDIA AI 加速计划,通过与 AI 生态系统中的开发者合作,开发工程化解决方案,以确保客户放心部署。
 
  
  01. H100 GPU:800 亿晶体管、六大创新
  每次英伟达的 GPU 新架构都会以一位科学家的名字来命名,这次同样如此。
 
  新 Hopper 架构的命名取自美国计算机科学家格蕾丝・赫柏(Grace Hopper),她是耶鲁大学第一位数学女博士、世界上第三位程序员、全球首个编译器的发明者,也是第一个发现“bug”的人。
 
  
  1945 年 9 月 9 日,格蕾丝使用的 Mark Ⅱ 机出现故障,经过近一天的排查,她找到了故障的原因:继电器中有一只死掉的蛾子。后来,“bug”(小虫)和“debug”(除虫)这两个词汇就作为计算机领域的专用词汇流传至今。
 
  基于 Hopper 架构的一系列 AI 计算新品,被冠上各种“全球首款”。按行业惯例,但凡比较 AI 算力,必会拿英伟达最新旗舰 GPU 作为衡量标准。
  
  
  可以看到,NVIDIA 越来越热衷于走稀疏化路线。过去六年,英伟达相继研发了使用 FP32、FP16 进行训练的技术。此次 H100 的性能介绍又出现了新的 Tensor 处理格式 FP8,而 FP8 精度下的 AI 性能可达到 4PFLOPS,约为 A100 FP16 的 6 倍。
 
  从技术进展来看,H100 有 6 项突破性创新:
 
  1)先进芯片:H100 采用台积电 4N 工艺、台积电 CoWoS 2.5D 封装,有 800 亿个晶体管(A100 有 540 亿个晶体管),搭载了 HBM3 显存,可实现近 5TB / s 的外部互联带宽。
 
  H100 是首款支持 PCIe 5.0 的 GPU,也是首款采用 HBM3 标准的 GPU,单个 H100 可支持 40Tb / s 的 IO 带宽,实现 3TB / s 的显存带宽。黄仁勋说,20 块 H100 GPU 便可承托相当于全球互联网的流量。
 
  2)新 Transformer 引擎:该引擎将新的 Tensor Core 与能使用 FP8 和 FP16 数字格式的软件结合,动态处理 Transformer 网络的各个层,在不影响准确性的情况下,可将 Transformer 模型的训练时间从数周缩短至几天。
 
  3)第二代安全多实例 GPU:MIG 技术支持将单个 GPU 分为 7 个更小且完全独立的实例,以处理不同类型的作业,为每个 GPU 实例提供安全的多租户配置。H100 能托管 7 个云租户,而 A100 仅能托管 1 个,也就是将 MIG 的部分能力扩展了 7 倍。每个 H100 实例的性能相当于两个完整的英伟达云推理 T4 GPU。
 
  4)机密计算:H100 是全球首款具有机密计算功能的 GPU 加速器,能保护 AI 模型和正在处理的客户数据,可以应用在医疗健康和金融服务等隐私敏感型行业的联邦学习,以及共享云基础设施。
 
  
  5)第 4 代英伟达 NVLink:为了加速大型 AI 模型,NVLink 结合全新外接 NVLink Switch,可将 NVLink 扩展为服务器间的互联网络,最多连接多达 256 个 H100 GPU,相较于上一代采用英伟达 HDR Quantum InfiniBand 网络,带宽高出 9 倍。
 
  6)DPX 指令:Hopper 引入了一组名为 DPX 的新指令集,DPX 可加速动态编程算法,解决路径优化、基因组学等算法优化问题,与 CPU 和上一代 GPU 相比,其速度提升分别可达 40 倍和 7 倍。
 
  总体来说,H100 的这些技术优化,将对跑深度推荐系统、大型 AI 语言模型、基因组学、复杂数字孪生、气候科学等任务的效率提升非常明显。
 
  比如,用 H100 支持聊天机器人使用的 monolithic Transformer 语言模型 Megatron 530B,吞吐量比上一代产品高出 30 倍,同时能满足实时对话式 AI 所需的次秒级延迟。
  
  H100 将提供 SXM 和 PCIe 两种规格,可满足各种服务器设计需求。
 
  其中 H100 SXM 提供 4 GPU 和 8 GPU 配置的 HGX H100 服务器主板;H100 PCIe 通过 NVLink 连接两块 GPU,相较 PCIe 5.0 可提供 7 倍以上的带宽。PCIe 规格便于集成到现有的数据中心基础设施中。
 
  这两种规格的电力需求都大幅增长。H100 SXM 版的散热设计功耗(TDP)达到 700W,比 A100 的 400W 高出 75%。据黄仁勋介绍,H100 采用风冷和液冷设计。
  
  这款产品预计于今年晚些时候全面发售。阿里云、AWS、百度智能云、谷歌云、微软 Azure、Oracle Cloud、腾讯云和火山引擎等云服务商均计划推出基于 H100 的实例。
  
  02. 更强企业级 AI 系统,全球最快 AI 超算
  基于 H100,英伟达最先进的企业级 AI 基础设施 DGX H100 系统、DGX POD、DGX SuperPOD 以及一一登场。它们将从今年第三季度开始供应。
 
  黄仁勋称,在财富 10 强企业和 100 强企业中,分别有 8 家和 44 家企业使用 DGX 作为 AI 基础架构。
 
  英伟达 DGX 系统现在包含英伟达 AI Enterprise 软件套件,该套件新增了对裸金属基础设施的支持。DGX 客户可使用软件套件中的预训练 AI 平台模型、工具包和框架来加快工作速度。
 
  1、DGX H100:最先进的企业级 AI 基础设施
  第四代英伟达 DGX 系统 DGX H100 是一款基于英伟达 H100 Tensor Core GPU 的 AI 平台。
 
  
  每个 DGX H100 系统配备 8 块 H100 GPU,总计有 6400 亿个晶体管,由 NVLink 连接,在全新的 FP8 精度下 AI 性能可达 32Petaflops,比上一代系统性能高 6 倍。
 
  DGX H100 系统中每块 GPU 都通过第四代 NVLink 连接,可提供 900GB / s 的带宽,是上一代系统的 1.5 倍。DGX H100 的显存带宽可达 24TB / s。
 
  该系统支持双 x86 CPU,每个系统还包含 2 个英伟达 BlueField-3 DPU,用于卸载、加速和隔离高级网络、存储及安全服务。
 
  8 个英伟达 ConnectX-7 Quantum-2 InfiniBand 网卡能够提供 400GB / s 的吞吐量,可用于连接计算和存储,这一速度比上一代系统提升了 1 倍。
  
  2、DGX SuperPOD:FP8 AI 性能达 1Exaflops
  DGX H100 系统是新一代英伟达 DGX POD 和 DGX SuperPOD 超级计算机的构建模块。
 
  英伟达连甩 20 枚 AI 核弹:800 亿晶体管 GPU、144 核 CPU 来了
 
  借助 NVLink Switch 系统,拥有 32 个节点、256 个 GPU 的 DGX Pod,其 HBM3 显存达 20.5TB,显存带宽高达 768TB / s。
 
  “相比之下,整个互联网不过只有 100TB / s。”黄仁勋感慨道。每个 DGX 都可借助 4 端口光学收发器连接到 NVLink Switch,每个端口都有 8 个 100G-PAM4 通道,每秒能够传输 100GB,32 个 NVLink 收发器连接到 1 个机架单元的 NVLink Switch 系统。
 
  英伟达连甩 20 枚 AI 核弹:800 亿晶体管 GPU、144 核 CPU 来了
 
  新一代 DGX SuperPOD 可提供 1Exaflops 的 FP8 AI 性能,比上一代产品性能高 6 倍,能够运行具有数万亿参数的大型语言模型工作负载;还有 20TB 的 HBM3 显存、192TFLOPS 的 SHARP 网络计算性能。
 
  通过采用 Quantum-2 InfiniBand 连接及 NVLink Switch 系统,新 DGX SuperPOD 架构在 GPU 之间移动数据的带宽高达 70TB / s,比上一代高 11 倍。
  

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读