谷歌推拥有26000个H100的超算，加速AI军备竞赛

作者 | 半导体行业观察2023-05-12

云提供商正在组建 GPU 大军，以提供更多的 AI 火力。在今天举行的年度 Google I/O 开发者大会上，Google 宣布了一款拥有 26,000 个 GPU 的 AI 超级计算机——A3 ，这个超级计算机是谷歌与微软争夺 AI 霸权的斗争中投入更多资源进行积极反攻的又一证据。

这台超级计算机拥有大约 26,000 个 Nvidia H100 Hopper GPU。作为参考，世界上最快的公共超级计算机Frontier拥有 37,000 个 AMD Instinct 250X GPU。

对于我们最大的客户，我们可以在单个集群中构建多达 26,000 个 GPU 的 A3 超级计算机，并正在努力在我们最大的地区构建多个集群，”谷歌发言人在一封电子邮件中说，并补充说“并非我们所有的位置都将是缩放到这么大的尺寸。”

该系统是在加利福尼亚州山景城举行的 Google I/O 大会上宣布的。开发者大会已经成为谷歌许多人工智能软件和硬件能力的展示。在微软将 OpenAI 的技术应用于 Bing 搜索和办公生产力应用程序之后，谷歌加速了其 AI 开发。

该超级计算机面向希望训练大型语言模型的客户。谷歌为希望使用超级计算机的公司宣布了随附的 A3 虚拟机实例。许多云提供商现在都在部署 H100 GPU，Nvidia 在 3 月份推出了自己的 DGX 云服务，与租用上一代 A100 GPU 相比价格昂贵。

谷歌表示，A3 超级计算机是对现有 A2 虚拟机与 Nvidia A100 GPU 提供的计算资源的重大升级。谷歌正在将所有分布在不同地理位置的 A3 计算实例汇集到一台超级计算机中。

“A3 超级计算机的规模可提供高达 26 exaflops 的 AI 性能，这大大减少了训练大型 ML 模型的时间和成本，”谷歌的董事 Roy Kim 和产品经理 Chris Kleban 在一篇博客文章中说。

公司使用 exaflops 性能指标来估计 AI 计算机的原始性能，但批评者仍然对其持保留意见。在谷歌的案例中，被大家诟病的是其结果在以 ML 为目标的 bfloat16(“brain floating point”)性能中计算出来的，这让你达到“exaflops”的速度比大多数经典 HPC 应用程序仍然使用的双精度 (FP64) 浮点数学要快得多要求。

GPU 的数量已经成为云提供商推广其 AI 计算服务的重要名片。微软在 Azure 中的 AI 超级计算机与 OpenAI 合作构建，拥有 285,000 个 CPU 内核和 10,000 个 GPU。微软还宣布了配备更多 GPU 的下一代 AI 超级计算机。Oracle 的云服务提供对 512 个 GPU 集群的访问，并且正在研究新技术以提高 GPU 通信的速度。

谷歌一直在大肆宣传其TPU v4 人工智能芯片，这些芯片被用于运行带有 LLM 的内部人工智能应用程序，例如谷歌的 Bard 产品。谷歌的 AI 子公司 DeepMind 表示，快速 TPU 正在指导通用和科学应用的 AI 开发。

相比之下，谷歌的 A3 超级计算机用途广泛，可以针对广泛的 AI 应用程序和 LLM 进行调整。Kim 和 Kleban 在博文中表示：“鉴于这些工作负载的高要求，一刀切的方法是不够的——你需要专为 AI 构建的基础设施。”

就像谷歌喜欢它的 TPU 一样，Nvidia 的 GPU 已经成为云提供商的必需品，因为客户正在 CUDA 中编写 AI 应用程序，这是 Nvidia 专有的并行编程模型。该软件工具包基于 H100 的专用 AI 和图形内核提供的加速生成最快的结果。

客户可以通过 A3 虚拟机运行 AI 应用程序，并通过 Vertex AI、Google Kubernetes Engine 和 Google Compute Engine 服务使用 Google 的 AI 开发和管理服务。公司可以使用 A3 超级计算机上的 GPU 作为一次性租用，结合大型语言模型来训练大型模型。然后，将新数据输入模型，更新模型——无需从头开始重新训练。

谷歌的 A3 超级计算机是各种技术的大杂烩，以提高 GPU 到 GPU 的通信和网络性能。A3 虚拟机基于英特尔第四代 Xeon 芯片(代号 Sapphire Rapids)，与 H100 GPU 一起提供。目前尚不清楚 VM 中的虚拟 CPU 是否会支持 Sapphire Rapids 芯片中内置的推理加速器。VM 随附 DDR5 内存。

Nvidia H100 上的训练模型比在云端广泛使用的上一代 A100 GPU 更快、更便宜。人工智能服务公司 MosaicML 进行的一项研究发现，H100 在其 70 亿参数的 MosaicGPT 大型语言模型上“比 NVIDIA A100 的成本效益高 30%，速度快 3 倍”。

H100 也可以进行推理，但考虑到 H100 提供的处理能力，这可能被认为是矫枉过正。谷歌云提供 Nvidia 的 L4 GPU 用于推理，英特尔在其 Sapphire Rapids CPU 中拥有推理加速器。

“A3 VM 也非常适合推理工作负载，与我们的 A2 VM 的 A100 GPU 相比，推理性能提升高达 30 倍，”Google 的 Kim 和 Kleban 说。

A3 虚拟机是第一个通过名为 Mount Evans 的基础设施处理单元连接 GPU 实例的虚拟机，该单元由谷歌和英特尔联合开发。IPU 允许 A3 虚拟机卸载网络、存储管理和安全功能，这些功能传统上是在虚拟 CPU 上完成的。IPU 允许以 200Gbps 的速度传输数据。

“A3 是第一个使用我们定制设计的 200Gbps IPU 的 GPU 实例，GPU 到 GPU 的数据传输绕过 CPU 主机并流经与其他 VM 网络和数据流量不同的接口。与我们的 A2 虚拟机相比，这使网络带宽增加了 10 倍，具有低尾延迟和高带宽稳定性，”谷歌高管在一篇博客文章中说。

IPU 的吞吐量可能很快就会受到微软的挑战，微软即将推出的配备 Nvidia H100 GPU 的 AI 超级计算机将拥有该芯片制造商的 Quantum-2 400Gbps 网络功能。微软尚未透露其下一代 AI 超级计算机中 H100 GPU 的数量。

A3 超级计算机建立在源自公司 Jupiter 数据中心网络结构的主干上，该主干通过光学链路连接地理上不同的 GPU 集群。

“对于几乎每一种工作负载结构，我们都实现了与更昂贵的现成非阻塞网络结构无法区分的工作负载带宽，”谷歌表示。

谷歌还分享说，A3 超级计算机将有八个 H100 GPU，它们使用 Nvidia 专有的交换和芯片互连技术互连。GPU 将通过 NVSwitch 和 NVLink 互连连接，其通信速度约为 3.6TBps。Azure 在其 AI 超级计算机上提供了相同的速度，并且两家公司都部署了 Nvidia 的电路板设计。

“每台服务器都使用服务器内部的 NVLink 和 NVSwitch 将 8 个 GPU 互连在一起。为了让 GPU 服务器相互通信，我们在 Jupiter DC 网络结构上使用了多个 IPU，”一位谷歌发言人说。

该设置有点类似于 Nvidia 的 DGX Superpod，它具有 127 个节点的设置，每个 DGX 节点配备八个 H100 GPU。

谷歌博客：配备 NVIDIA H100 GPU 的 A3 超级计算机

实施最先进的人工智能 (AI) 和机器学习 (ML) 模型需要大量计算，既要训练基础模型，又要在这些模型经过训练后为它们提供服务。考虑到这些工作负载的需求，一种放之四海而皆准的方法是不够的——您需要专为 AI 构建的基础设施。

我们与我们的合作伙伴一起，为 ML 用例提供广泛的计算选项，例如大型语言模型 (LLM)、生成 AI 和扩散模型。最近，我们发布了 G2 VMs，成为第一个提供新的 NVIDIA L4 Tensor Core GPU 用于服务生成式 AI 工作负载的云。今天，我们通过推出下一代 A3 GPU 超级计算机的私人预览版来扩展该产品组合。Google Cloud 现在提供一整套 GPU 选项，用于训练和推理 ML 模型。

Google Compute Engine A3 超级计算机专为训练和服务要求最严苛的 AI 模型而打造，这些模型为当今的生成式 AI 和大型语言模型创新提供动力。我们的 A3 VM 结合了 NVIDIA H100 Tensor Core GPU 和 Google 领先的网络技术，可为各种规模的客户提供服务：

1. A3 是第一个使用我们定制设计的 200 Gbps IPU的 GPU 实例，GPU 到 GPU 的数据传输绕过 CPU 主机并流过与其他 VM 网络和数据流量不同的接口。与我们的 A2 VM 相比，这可实现高达 10 倍的网络带宽，同时具有低尾延迟和高带宽稳定性。

2. 我们行业独一无二的智能 Jupiter 数据中心网络结构可扩展到数万个高度互连的 GPU，并允许全带宽可重新配置的光学链路，可以按需调整拓扑。对于几乎每种工作负载结构，我们实现的工作负载带宽与更昂贵的现成非阻塞网络结构没有区别，从而降低了 TCO。

3. A3 超级计算机的规模提供高达 26 exaFlops 的 AI 性能，这大大减少了训练大型 ML 模型的时间和成本。

随着公司从训练过渡到提供 ML 模型，A3 VM 也非常适合推理工作负载，与我们由 NVIDIA A100 Tensor Core GPU* 提供支持的 A2 VM 相比，推理性能提升高达 30 倍。

A3 GPU VM 专门为当今的 ML 工作负载提供最高性能的训练，配备现代 CPU、改进的主机内存、下一代 NVIDIA GPU 和主要网络升级。以下是 A3 的主要特点：

1. 8 个 H100 GPU，利用 NVIDIA 的 Hopper 架构，提供 3 倍的计算吞吐量

2. 通过 NVIDIA NVSwitch 和 NVLink 4.0，A3 的 8 个 GPU 之间的对分带宽为 3.6 TB/s

3. 下一代第 4 代英特尔至强可扩展处理器

4. 2TB 主机内存，通过 4800 MHz DDR5 DIMM

5. 由我们支持硬件的 IPU、专门的服务器间 GPU 通信堆栈和 NCCL 优化提供支持的网络带宽增加 10 倍

A3 GPU VM 是客户开发最先进的 ML 模型的一个进步。通过显著加快 ML 模型的训练和推理，A3 VM 使企业能够快速训练更复杂的 ML 模型，为我们的客户创造机会来构建大型语言模型 (LLM)、生成 AI 和扩散模型，以帮助优化运营并在竞争中保持领先地位。

此次发布基于我们与 NVIDIA 的合作伙伴关系，旨在为我们的客户提供用于训练和推理 ML 模型的全方位 GPU 选项。

NVIDIA 超大规模和高性能计算副总裁 Ian Buck 表示：“由下一代 NVIDIA H100 GPU 提供支持的 Google Cloud 的 A3 VM 将加速生成 AI 应用程序的训练和服务。” “在谷歌云最近推出 G2 实例之后，我们很自豪能够继续与谷歌云合作，通过专门构建的人工智能基础设施帮助全球企业转型。”

对于希望在无需维护的情况下开发复杂 ML 模型的客户，您可以在 Vertex AI 上部署 A3 VM，Vertex AI 是一个端到端平台，用于在专为低延迟服务和高性能而构建的完全托管基础设施上构建 ML 模型训练。今天，在Google I/O 2023上，我们很高兴通过向更多客户开放 Vertex AI 中的生成 AI 支持以及引入新功能和基础模型来构建这些产品。

对于希望构建自己的自定义软件堆栈的客户，客户还可以在 Google Kubernetes Engine (GKE) 和 Compute Engine 上部署 A3 VM，以便您可以训练和提供最新的基础模型，同时享受自动缩放、工作负载编排和自动升级。

“Google Cloud 的 A3 VM 实例为我们提供了计算能力和规模，可满足我们最苛刻的训练和推理工作负载。我们期待利用他们在 AI 领域的专业知识和在大规模基础设施方面的领导地位，为我们的 ML 工作负载提供强大的平台。” -Noam Shazeer，Character.AI 首席执行官

在谷歌云，人工智能是我们的 DNA。我们应用了数十年为 AI 运行全球规模计算的经验。我们设计了该基础架构以扩展和优化以运行各种 AI 工作负载——现在，我们将其提供给您。