英伟达连发20枚AI核弹 800亿晶体管GPU 144 核CPU来了

发布时间：2022-03-24 13:29:41 所属栏目：业界来源：互联网

导读：今日，NVIDIA（英伟达）携基于最新 Hopper 架构的 H100 GPU 系列新品高调回归！延续以往风格，黄仁勋在主题演讲中继续秒天秒地秒空气，公布多个全球首款。这次他带来一系列堪称地表最强的 AI 重磅新品，随便一个精度的 AI 性能，都比上一代 A100 高出 3~6

　　今日，NVIDIA（英伟达）携基于最新 Hopper 架构的 H100 GPU 系列新品高调回归！
　　
　　延续以往风格，黄仁勋在主题演讲中继续秒天秒地秒空气，公布多个“全球首款”。这次他带来一系列堪称“地表最强”的 AI 重磅新品，随便一个精度的 AI 性能，都比上一代 A100 高出 3~6 倍。

　　虽然英伟达并购 Arm 的计划刚刚告吹，但它的数据中心“三芯”总路线（GPU+DPU+CPU）依然不动摇 —— 继去年推出其首款数据中心 CPU 后，今天，英伟达又亮出一款基于 Arm 架构的 Grace CPU 超级芯片。

　　
　　凭借押中图形处理和人工智能（AI）两大赛道，英伟达已经成为全球半导体市值 TOP1。截至文章发布时间，英伟达的市值超过 6600 亿美元，比第二名台积电足足多了近 1100 亿美元。

　　下面就让我们来看看本场 GTC 大会的完整干货：

　　1、H100 GPU：采用台积电 4N 工艺，拥有 800 亿个晶体管，实现了首个 GPU 机密计算，相比 A100，FP8 性能提升 6 倍，FP16、TF32、FP64 性能各提升 3 倍。

　　2、全新 NVLink Switch 系统：高度可扩展，支持 256 块 H100 GPU 互连。

　　3、融合加速器 H100 CNX：耦合 H100 GPU 与 ConnectX-7 和以太网智能网卡，可为 I / O 密集型应用提供更强劲的性能。

　　4、DGX H100：配备 8 块 H100 GPU，总计有 6400 亿个晶体管，在全新的 FP8 精度下 AI 性能比上一代高 6 倍，可提供 900GB / s 的带宽。

　　5、DGX SuperPOD：最多由 32 个 DGX H100 组成，AI 算力可达 1EFLOPS。

　　6、Eos 超级计算机：全球运行速度最快的 AI 超级计算机，配备 576 台 DGX H100 系统，FP8 算力达到 18EFLOPS，FP64 算力达到 275PFLOPS。

　　7、Grace CPU 超级芯片：由两个 CPU 芯片组成，采用最新 Armv9 架构，拥有 144 个 CPU 核心和 1TB / s 的内存带宽，将于 2023 年上半年供货。

　　8、为定制芯片集成开放 NVLink：采用先进封装技术，与英伟达芯片上的 PCIe Gen 5 相比，能源效率高 25 倍，面积效率高 90 倍。英伟达还将支持通用小芯片互连传输通道 UCIe 标准。

　　9、CUDA-X：60 多个针对 CUDA-X 的一系列库、工具和技术的更新。

　　10、Riva 2.0：对话式 AI 服务 Riva 全面发行，2.0 版本支持识别 7 种语言，可将神经文本转换为不同性别发声的语音。

　　11、Merlin 1.0：可帮助企业快速构建、部署和扩展先进的 AI 推荐系统。

　　12、Sionna：一款用于 6G 通信研究的 AI 框架。

　　13、OVX 与 OVX SuperPod：面向工业数字孪生的数据中心级服务器和超级集群。

　　14、Spectrum-4：全球首个 400Gbps 端到端网络平台，交换吞吐量比前几代产品高出 4 倍，达到 51.2Tbps。

　　15、Omniverse Cloud：支持协作者们随时随地实现远程实时协同工作。

　　16、DRIVE Hyperion 9：汽车参考设计，拥有 14 个摄像头、9 个雷达、3 个激光雷达和 20 个超声传感器，总体传感器数量是上一代的两倍。

　　17、DRIVE Map：多模态地图引擎，包含摄像头、激光雷达和雷达的数据，同时兼顾安全性。

　　18、Clara Holoscan MGX：可供医疗设备行业在边缘开发和部署实时 AI 应用的计算平台，AI 算力可达每秒 254~610 万亿次运算。

　　19、Isaac for AMR：提供自主移动机器人系统参考设计。

　　20、Jetson AGX Orin 开发者套件：在边缘实现服务器级的 AI 性能。

　　黄仁勋还介绍了英伟达创建的 NVIDIA AI 加速计划，通过与 AI 生态系统中的开发者合作，开发工程化解决方案，以确保客户放心部署。

　　
　　01. H100 GPU：800 亿晶体管、六大创新
　　每次英伟达的 GPU 新架构都会以一位科学家的名字来命名，这次同样如此。

　　新 Hopper 架构的命名取自美国计算机科学家格蕾丝・赫柏（Grace Hopper），她是耶鲁大学第一位数学女博士、世界上第三位程序员、全球首个编译器的发明者，也是第一个发现“bug”的人。

　　
　　1945 年 9 月 9 日，格蕾丝使用的 Mark Ⅱ 机出现故障，经过近一天的排查，她找到了故障的原因：继电器中有一只死掉的蛾子。后来，“bug”（小虫）和“debug”（除虫）这两个词汇就作为计算机领域的专用词汇流传至今。

　　基于 Hopper 架构的一系列 AI 计算新品，被冠上各种“全球首款”。按行业惯例，但凡比较 AI 算力，必会拿英伟达最新旗舰 GPU 作为衡量标准。
　　
　　
　　可以看到，NVIDIA 越来越热衷于走稀疏化路线。过去六年，英伟达相继研发了使用 FP32、FP16 进行训练的技术。此次 H100 的性能介绍又出现了新的 Tensor 处理格式 FP8，而 FP8 精度下的 AI 性能可达到 4PFLOPS，约为 A100 FP16 的 6 倍。

　　从技术进展来看，H100 有 6 项突破性创新：

　　1）先进芯片：H100 采用台积电 4N 工艺、台积电 CoWoS 2.5D 封装，有 800 亿个晶体管（A100 有 540 亿个晶体管），搭载了 HBM3 显存，可实现近 5TB / s 的外部互联带宽。

　　H100 是首款支持 PCIe 5.0 的 GPU，也是首款采用 HBM3 标准的 GPU，单个 H100 可支持 40Tb / s 的 IO 带宽，实现 3TB / s 的显存带宽。黄仁勋说，20 块 H100 GPU 便可承托相当于全球互联网的流量。

　　2）新 Transformer 引擎：该引擎将新的 Tensor Core 与能使用 FP8 和 FP16 数字格式的软件结合，动态处理 Transformer 网络的各个层，在不影响准确性的情况下，可将 Transformer 模型的训练时间从数周缩短至几天。

　　3）第二代安全多实例 GPU：MIG 技术支持将单个 GPU 分为 7 个更小且完全独立的实例，以处理不同类型的作业，为每个 GPU 实例提供安全的多租户配置。H100 能托管 7 个云租户，而 A100 仅能托管 1 个，也就是将 MIG 的部分能力扩展了 7 倍。每个 H100 实例的性能相当于两个完整的英伟达云推理 T4 GPU。

　　4）机密计算：H100 是全球首款具有机密计算功能的 GPU 加速器，能保护 AI 模型和正在处理的客户数据，可以应用在医疗健康和金融服务等隐私敏感型行业的联邦学习，以及共享云基础设施。

　　
　　5）第 4 代英伟达 NVLink：为了加速大型 AI 模型，NVLink 结合全新外接 NVLink Switch，可将 NVLink 扩展为服务器间的互联网络，最多连接多达 256 个 H100 GPU，相较于上一代采用英伟达 HDR Quantum InfiniBand 网络，带宽高出 9 倍。

　　6）DPX 指令：Hopper 引入了一组名为 DPX 的新指令集，DPX 可加速动态编程算法，解决路径优化、基因组学等算法优化问题，与 CPU 和上一代 GPU 相比，其速度提升分别可达 40 倍和 7 倍。

　　总体来说，H100 的这些技术优化，将对跑深度推荐系统、大型 AI 语言模型、基因组学、复杂数字孪生、气候科学等任务的效率提升非常明显。

　　比如，用 H100 支持聊天机器人使用的 monolithic Transformer 语言模型 Megatron 530B，吞吐量比上一代产品高出 30 倍，同时能满足实时对话式 AI 所需的次秒级延迟。
　　
　　H100 将提供 SXM 和 PCIe 两种规格，可满足各种服务器设计需求。

　　其中 H100 SXM 提供 4 GPU 和 8 GPU 配置的 HGX H100 服务器主板；H100 PCIe 通过 NVLink 连接两块 GPU，相较 PCIe 5.0 可提供 7 倍以上的带宽。PCIe 规格便于集成到现有的数据中心基础设施中。

　　这两种规格的电力需求都大幅增长。H100 SXM 版的散热设计功耗（TDP）达到 700W，比 A100 的 400W 高出 75%。据黄仁勋介绍，H100 采用风冷和液冷设计。
　　
　　这款产品预计于今年晚些时候全面发售。阿里云、AWS、百度智能云、谷歌云、微软 Azure、Oracle Cloud、腾讯云和火山引擎等云服务商均计划推出基于 H100 的实例。
　　
　　02. 更强企业级 AI 系统，全球最快 AI 超算
　　基于 H100，英伟达最先进的企业级 AI 基础设施 DGX H100 系统、DGX POD、DGX SuperPOD 以及一一登场。它们将从今年第三季度开始供应。

　　黄仁勋称，在财富 10 强企业和 100 强企业中，分别有 8 家和 44 家企业使用 DGX 作为 AI 基础架构。

　　英伟达 DGX 系统现在包含英伟达 AI Enterprise 软件套件，该套件新增了对裸金属基础设施的支持。DGX 客户可使用软件套件中的预训练 AI 平台模型、工具包和框架来加快工作速度。

　　1、DGX H100：最先进的企业级 AI 基础设施
　　第四代英伟达 DGX 系统 DGX H100 是一款基于英伟达 H100 Tensor Core GPU 的 AI 平台。

　　
　　每个 DGX H100 系统配备 8 块 H100 GPU，总计有 6400 亿个晶体管，由 NVLink 连接，在全新的 FP8 精度下 AI 性能可达 32Petaflops，比上一代系统性能高 6 倍。

　　DGX H100 系统中每块 GPU 都通过第四代 NVLink 连接，可提供 900GB / s 的带宽，是上一代系统的 1.5 倍。DGX H100 的显存带宽可达 24TB / s。

　　该系统支持双 x86 CPU，每个系统还包含 2 个英伟达 BlueField-3 DPU，用于卸载、加速和隔离高级网络、存储及安全服务。

　　8 个英伟达 ConnectX-7 Quantum-2 InfiniBand 网卡能够提供 400GB / s 的吞吐量，可用于连接计算和存储，这一速度比上一代系统提升了 1 倍。
　　
　　2、DGX SuperPOD：FP8 AI 性能达 1Exaflops
　　DGX H100 系统是新一代英伟达 DGX POD 和 DGX SuperPOD 超级计算机的构建模块。

　　英伟达连甩 20 枚 AI 核弹：800 亿晶体管 GPU、144 核 CPU 来了

　　借助 NVLink Switch 系统，拥有 32 个节点、256 个 GPU 的 DGX Pod，其 HBM3 显存达 20.5TB，显存带宽高达 768TB / s。

　　“相比之下，整个互联网不过只有 100TB / s。”黄仁勋感慨道。每个 DGX 都可借助 4 端口光学收发器连接到 NVLink Switch，每个端口都有 8 个 100G-PAM4 通道，每秒能够传输 100GB，32 个 NVLink 收发器连接到 1 个机架单元的 NVLink Switch 系统。

　　英伟达连甩 20 枚 AI 核弹：800 亿晶体管 GPU、144 核 CPU 来了

　　新一代 DGX SuperPOD 可提供 1Exaflops 的 FP8 AI 性能，比上一代产品性能高 6 倍，能够运行具有数万亿参数的大型语言模型工作负载；还有 20TB 的 HBM3 显存、192TFLOPS 的 SHARP 网络计算性能。

　　通过采用 Quantum-2 InfiniBand 连接及 NVLink Switch 系统，新 DGX SuperPOD 架构在 GPU 之间移动数据的带宽高达 70TB / s，比上一代高 11 倍。
　　

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

壹号本新款 ONE XPLAY	特斯拉前 CTO 电动汽车
华硕公布新款天选3 搭	主流显卡最新场批价曝