微软为OpenAI打造大型超算，但用的谁家芯片？

发布时间：2020-05-22 02:17:37 所属栏目：创业来源：至顶网

导读：本周微软宣布，已经在Azure云中托管了OpenAI排名第五的AI超级计算机。2019年微软向OpenAI行业研究小组投资了10亿美元。这个AI超算系统包括大约10000个GPU和285000多个CPU核心，将用于提升处理超大型AI模型的能力，据OpenAI称，大型AI模型的规模每3.5个月就

本周微软宣布，已经在Azure云中托管了OpenAI排名第五的AI超级计算机。2019年微软向OpenAI行业研究小组投资了10亿美元。这个AI超算系统包括大约10000个GPU和285000多个CPU核心，将用于提升处理超大型AI模型的能力，据OpenAI称，大型AI模型的规模每3.5个月就会翻一番。微软用于自然语言生成的Turing模型包含约170亿个参数，比去年的最大模型增加了17倍。因此，这个超级计算机将大有用处。

奇怪的是，微软并没有命名这套计算机(这个在超算领域这是闻所未闻的)，而且也没有透露任何用户必须了解的详细系统配置信息：用的哪个GPU的开发堆栈，谁家的CPU、以及每个插槽的核心数和线程数、什么网络接口、每个节点(#CPU和#GPU)的配置。尽管没有发言人证实这些信息，但我认为我自己对其中一些重要因素有一些了解。

微软在宣布这一公告的博客文章中，放开了这么一张没有实质内容的超级计算机图片。资料来源：微软

使用了谁家GPU?NVIDIA V100

首先，GPU必须是NVIDIA V100，因为a)NVIDIA刚刚发布了A100，在此之前，他们很难交付10000个。 b)GPU不能是AMD Radeons，因为Radeons尚不支持OpenAI研究所需的生态系统。因此经过这么分析筛选，得出的结论就是，GPU就是NVIDIA V100。以10000个为例，假设这对微软来说是一笔非常可观的交易，每个GPU成本仅为5000美元，那么会给NVIDIA带来大约5000万美元的收入，而且也许上个季度就发生了。

使用了谁家的CPU?AMD EPYC Rome

说到CPU，计算一下就能知道是AMD EPYC Rome CPU。除非微软花费巨资采购56核至强CPU，否则英特尔至强的核心数尚不足以提供支持。以285000个核心为例，假设双插槽配置的AMD 64核CPU，那就相当于大约2220个节点。每个节点配置4个GPU，可以连接到大约8800个GPU，因此至少需要10000个GPU。有消息灵通的匿名人士证实了我的推理，称确实使用的是AMD EPYC。

互连方面，NVIDIA收购了Mellanox，在超级计算机领域处于领导地位，且倾向于InfiniBand，因此我认为应该采用的是InfiniBand。

结论

虽然我了解到，微软和OpenAI希望这次公告的重点放在公告本身已经他们正在进行的研究上，但这个做法有些过时了，与Satya Nadella倡导的转变是不相符的。在开放的IT世界中，事实信息是至关重要的，公告中应该包含有这些事实。微软使用了类似漫画的图片，而不是吸引人的照片，让我们无法确定使用了哪个系统(猜测是Open Compute HGX，但是…)。那好吧。我做了一些分析研究，得出的结论是AMD、NVIDIA和Mellanox胜出了，他们的领先技术和成果将被用于人工智能研究领域，这一点值得肯定。

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

穗港科研团队首建真正	邓丽君引爆虚拟人板块
比亚迪成立电池公司，	自称新势力2.0，电动屋