NVLink、NVSwitch 与 NVL72 —— 多卡变成"一颗大 GPU"
一颗 H100 算力 2 PFLOPS,训练 GPT-4 量级模型要几千 PFLOPS——必须几百到上千颗 GPU 同步训练。怎么把这些 GPU 连起来,是过去 10 年 NVIDIA 比 GPU 本身更难的工程。本文按演进讲清楚。
为什么 PCIe 不够用
PCIe 5.0 ×16 双向 128 GB/s——听起来不少,但分到 GPU↔GPU 通信上:
1 | |
AI 训练时 GPU 之间要交换 梯度、参数、激活——动辄几十 GB/s 的持续通信。PCIe 是瓶颈。
NVLink 就是为这个而生。
NVLink 演进
1 | |
NVLink 是点对点链路。连 8 卡如果不加交换芯片,要 8 卡互相直连——每卡需要 7 条链路,物理上做不到。
NVSwitch:GPU 间的”交换机”
NVSwitch 是 NVIDIA 自研的交换芯片,让所有 GPU”全互联”。
graph TB
subgraph 8卡DGX["8 GPU 全互联(DGX A100)"]
SW1[NVSwitch 1]
SW2[NVSwitch 2]
SW3[NVSwitch 3]
SW4[NVSwitch 4]
SW5[NVSwitch 5]
SW6[NVSwitch 6]
G0[GPU 0] --- SW1 & SW2 & SW3 & SW4 & SW5 & SW6
G1[GPU 1] --- SW1 & SW2 & SW3 & SW4 & SW5 & SW6
G2[GPU 2] --- SW1 & SW2 & SW3 & SW4 & SW5 & SW6
G3[GPU 3] --- SW1 & SW2 & SW3 & SW4 & SW5 & SW6
end
每颗 GPU 出 12-18 条 NVLink 接到多颗 NVSwitch,任意两颗 GPU 之间 1 跳到达,全速 600/900/1800 GB/s。
NVSwitch 代次
1 | |
DGX 系列:NVIDIA 的”参考机”
NVIDIA 自己出的”标准 8 卡服务器”:
| 代次 | GPU | 显存 / 卡 | 总 NVLink 带宽 | 整机功耗 |
|---|---|---|---|---|
| DGX-1 | 8× P100 | 16 GB | 80 GB/s | 3.2 kW |
| DGX-1V | 8× V100 | 32 GB | 300 GB/s | 3.5 kW |
| DGX-2 | 16× V100 | 32 GB | 300 GB/s(2.4 TB/s 聚合) | 10 kW |
| DGX A100 | 8× A100 | 80 GB | 600 GB/s | 6.5 kW |
| DGX H100 | 8× H100 | 80 GB | 900 GB/s | 10.2 kW |
| DGX H200 | 8× H200 | 141 GB | 900 GB/s | 10.2 kW |
| DGX B200 | 8× B200 | 192 GB | 1.8 TB/s | 14.3 kW |
单台 DGX H100/B200 已经接近一个传统机柜的整柜功耗——这是数据中心机柜密度暴涨的根因。
HGX:OEM 用的”基板”
DGX 是整机,HGX 是裸基板(baseboard)——NVIDIA 把 GPU+NVSwitch 焊到一块板上卖给 OEM,OEM 再加 CPU、电源、散热做成自己品牌的整机:
1 | |
实际上绝大多数”AI 服务器”都是 HGX 基板的不同包装——核心计算单元和 DGX 一样。
NVL72:把 72 颗 GPU 装进一个机柜
GTC 2024 NVIDIA 推出 GB200 NVL72——这是数据中心 GPU 互联的一次质的飞跃。
物理结构
1 | |
graph TB
subgraph NVL72["NVL72 机柜(120 kW 液冷)"]
direction TB
R1[Compute Tray × 18<br/>每 Tray 2× GB200 Superchip]
R2[NVSwitch Tray × 9<br/>聚合 NVLink Fabric]
R3[液冷分集水器]
R4[Bus Bar 48V DC]
R1 --- R2
R3 -.- R1 & R2
R4 -.- R1 & R2
end
全互联拓扑
NVL72 内部 72 颗 GPU全互联——不是分组互联,是真正的全连接:
1 | |
对程序员意义:72 颗 GPU 可以像一颗大 GPU 一样编程——大模型可以张量并行(TP)跨 72 卡而不需要切到流水并行(PP),这极大简化了训练。
为什么是 72 而不是 64
NVL72 = 72 GPU = 18 Compute Tray × 4 GPU/Tray = 9 NVSwitch Tray 配比。
大模型训练有几种并行方式:
1 | |
72 = 8 × 9 / 9 × 8 / 6 × 12 等,便于切多种 TP × DP × PP 组合。对 GPT-4 / Llama-3 / DeepSeek 等大模型规模刚好合适。
NVL72 的”伪 NUMA”
72 颗 GPU 在同一 NVLink Domain,但距离仍有差异:
1 | |
这本质上是机柜级 NUMA——和第二章讲的多 socket NUMA 是同一个问题。
NVL72 的电与冷
整柜液冷
1 | |
NVL72 默认配 冷板式液冷——CPU/GPU 上盖装冷板,循环水带走 90% 热量;剩余 10% 由风扇辅助。
整柜 DC 48V Bus Bar
不再每台服务器单独 PSU。整柜共用一根 48V DC bus bar,单台 Compute Tray 通过 DC-DC 取电:
- 减少 AC-DC 转换损耗
- 节省 PSU 物理空间
- 更高密度
第一章讲过的 OCP / 天蝎机柜也是这条路——NVL72 是它的”AI 极致版”。
整柜重量
1 | |
NVLink Switch System:跨柜也能互联
NVL72 一柜 72 GPU 满足不了 GPT-4 量级训练(要几千卡)。多柜互联可以用:
方案 1:Rubin Ultra NVL576(Kyber rack)
NVIDIA 后续 Rubin Ultra(2026-2027 路线)的目标平台代号 Kyber rack:
1 | |
待补充:NVL576 具体路由拓扑、量产时间、实际部署案例——以 NVIDIA 正式发布为准。NDA 细节走 NVIDIA Partner Portal。
方案 2:NVL72 + InfiniBand(当下主流)
每 72 GPU 一柜走 NVLink,柜与柜之间走 InfiniBand NDR 400G / XDR 800G——下一篇展开。
1 | |
软件层面用 NCCL 自动选拓扑——TP 留在柜内、DP 跨柜。配合 NVIDIA Quantum-2/Quantum-3 交换机的 SHARPv3,AllReduce 可以在交换机内完成,进一步减少柜间流量。
集群网络的”两段论”
graph TB
subgraph SCALE_UP["Scale-Up(紧耦合)"]
direction TB
NVL[NVLink Fabric<br/>1.8 TB/s, 1 us<br/>72-576 GPU 全互联]
end
subgraph SCALE_OUT["Scale-Out(松耦合)"]
direction TB
IB[InfiniBand / RoCE<br/>400-800 Gbps, 5-10 us<br/>万级 GPU 集群]
end
NVL -.- IB
Scale-Up:少数 GPU 紧耦合(NVLink)
Scale-Out:大量 GPU 松耦合(InfiniBand / 以太网)
xAI Colossus、Meta 24K H100 集群、字节跳动等大集群都是这种”NVL 单元 × N 个”的设计。
Vera Rubin NVL144:72 扩到 144 的代价
NVL72 是 Blackwell 时代的”极限”,NVL144 是 Rubin 时代的答卷——GPU 数量翻倍,但工程难度不止翻倍。
NVSwitch 4 代进化
| 代次 | 搭配 GPU | 端口数 | 单端口带宽 | 总交换带宽 |
|---|---|---|---|---|
| NVSwitch 1 | V100 | 16 | 25 GB/s | 400 GB/s |
| NVSwitch 2 | A100 | 36 | 50 GB/s | 1.8 TB/s |
| NVSwitch 3 | H100 | 64 | 50 GB/s | 3.2 TB/s |
| NVSwitch 4 | B200/VR200 | 72 | 100 GB/s | 7.2 TB/s |
NVSwitch 4(第 4 代)是 NVL72 的”全互联脊梁”:单芯片 72 端口 × 100 GB/s = 单交换机 7.2 TB/s 双向带宽。NVL72 中部署 18 颗 NVSwitch 4,聚合后形成 72 GPU 的完全非阻塞全互联网格。
NVL144 的扩展逻辑:
1 | |
NVSwitch 4 单芯片 72 端口,连接 72 GPU 时每 GPU 正好用 1 个端口(18 个 NVSwitch × 1 port/GPU = 单 GPU 有 18 条 NVLink 5 链路)。扩展到 144 则需要跨交换机织入,跳数从 1-2 跳略增——但仍在单一 NVLink 域内。
NVL144 的物理规格与拓扑
graph TB
subgraph NVL144["NVL144 双机柜(OCP MGX)"]
direction TB
CT1[Compute Tray 组 A<br/>72× Rubin GPU<br/>VR200 Superchip ×36]
CT2[Compute Tray 组 B<br/>72× Rubin GPU<br/>VR200 Superchip ×36]
SW[NVSwitch Tray<br/>聚合 NVLink Fabric<br/>144 GPU 全互联域]
LC1[液冷管路 A<br/>最高 45°C 进液]
LC2[液冷管路 B<br/>最高 45°C 进液]
BB[液冷 Bus Bar<br/>5000A / 800V HVDC]
CT1 --- SW
CT2 --- SW
LC1 -.- CT1
LC2 -.- CT2
BB -.- CT1 & CT2 & SW
end
| 规格 | NVL72(Blackwell) | NVL144(Rubin) |
|---|---|---|
| GPU 数 | 72 | 144 |
| GPU 型号 | B200(186 GB HBM3e) | VR200(288 GB HBM4) |
| 单 GPU HBM 带宽 | 8 TB/s | 22 TB/s |
| 总内存带宽 | ~576 TB/s | ~1.7 PB/s(3×) |
| NVLink 聚合带宽 | ~130 TB/s | 260 TB/s(2×) |
| NVLink 版本 | NVLink 5(100 GB/s/链路) | NVLink 6(~200 GB/s/链路推测) |
| 整柜功耗 | 120-130 kW | ~180-200 kW+ |
| 液冷进液温度 | ~40°C | 最高 45°C |
| 供电 | 48V DC Bus Bar | 800V HVDC(OCP Mt. Diablo 兼容) |
| OCP 标准 | OCP MGX | OCP MGX(全规范) |
| 综合性能(FP4) | 1× 基准 | 7.5× GB300 NVL72 |
NVL144 数字来源:OCP 2025 全球峰会 NVIDIA 演示(Preliminary)。以 NVIDIA 正式 datasheet 为准。
72→144 扩展的三大工程挑战
1. 功耗密度爆炸
1 | |
2. 冷却系统重设计
NVL144 的液冷进液温度设计为 最高 45°C——比 NVL72 的 ~40°C 宽松 5°C。这是有意为之:
1 | |
3. NVLink 域扩展的延迟代价
1 | |
对于张量并行(Tensor Parallel),144 卡内通信仍比跨 InfiniBand 快 5-10 倍——实际训练效率损失有限。但 AllReduce 的通信量与 GPU 数线性增长,调度和通信拓扑感知变得更关键。
NVL576(Rubin Ultra / Kyber Rack)展望
NVL144 是”标准版”,NVL576 是 Rubin Ultra 的终极形态:
1 | |
咱觉得,576 颗 GPU 同一个 NVLink 域,意味着一个 AI 作业里张量并行可以跑到 576 路——这是什么量级?GPT-4 训练时用的是几千卡级别的数据并行,但单个模型的张量并行通常只有 8-16 路。576 路 TP 是个科幻数字,更现实的是用来做超大批量推理或千亿级稠密模型的极速训练。
NVLink 的开放替代:UALink
AMD/Intel/Google/Meta/Microsoft/HPE 等 115+ 家厂商在 2024 年成立 UALink Consortium,推出面向 AI 加速器 Scale-Up 的开放互联规范:
| 项目 | UALink 1.0 | UALink 2.0(计划) |
|---|---|---|
| 规范发布 | 2025 年 4 月 | 2026 年 Q2 |
| 端口速率 | 800 Gbps | 更高 |
| 端口配置 | 1×800G / 2×400G / 4×200G | — |
| 单 pod 最大规模 | 1024 个加速器 | — |
| 物理层 | 复用以太网 PHY(线缆/连接器/Retimer) | — |
| 交换机量产 | 2026 年底 - 2027 年初 | 2027-2028 |
| 加速器量产 | 2026 年底 - 2027 年初 | 2027-2028 |
| 延迟目标 | PCIe 交换机级别 | — |
UALink 架构要点:
1 | |
UALink 与 OCP 的协作——OAC(Open Adapter Card)是关键:
1 | |
UALink vs NVLink 5:
| UALink 1.0 | NVLink 5 | |
|---|---|---|
| 端口速率 | 800 Gbps | 100 GB/s(= 800 Gbps) |
| 最大规模 | 1024 xPU | 576 GPU(NVL576) |
| 开放性 | 完全开放,多厂家 | NVIDIA 专有 |
| 物理层 | 以太网 PHY 复用 | 专有 NVLink 线缆 |
| 延迟 | PCIe 交换机级 | ~700 ns - 1 μs |
| 首批产品 | 2026 年底 | 已量产(NVL72) |
| 软件生态 | 建设中 | NCCL + 完整 CUDA 栈 |
咱据实说:UALink 的 1024 xPU 规模比 NVL576 的 576 GPU 更大,且物理层复用以太网基础设施省钱省事。但软件栈才是真正的壁垒——NCCL 调优 8 年的经验、TensorRT-LLM 的深度优化、cuBLAS 的算法库,这些 UALink 短期内无法复制。
UALink 的机会在于:AMD MI 系列 + 非 NVIDIA 阵营的 Scale-Up,以及国产 AI 芯片(华为昇腾、寒武纪等)需要开放互联标准的长期需求。
UALink 2.0 规范计划 2026 年 Q2 完成,3.0 计划 2027 年推出。交换机与加速器产品 2026 年底量产。实际性能以产品上市测试为准。
性能查询
1 | |
一张总结
graph TB
L1[单卡 SM 内部<br/>shared memory 几 TB/s]
L2[单卡内 SM 之间<br/>L2 + HBM]
L3[同机 8 卡 NVLink<br/>1.8 TB/s]
L4[NVL72 机柜<br/>72 卡 NVLink Fabric]
L5[NVL576 多柜<br/>外置 NVLink Switch]
L6[InfiniBand/RoCE<br/>跨数百柜 万卡]
L7[多数据中心<br/>WAN / 专线]
L1 --> L2 --> L3 --> L4 --> L5 --> L6 --> L7
每跨一层带宽掉 5-10 倍,延迟涨 10 倍——AI 集群设计的核心哲学就是让最重的通信尽量留在低层。
小结
- NVLink 是为 GPU↔GPU 通信设计的点对点高速互联
- NVSwitch 让 8/16/72 颗 GPU 全互联
- DGX 是整机,HGX 是基板,NVL72 是整机柜(72 GPU 全互联)
- NVL72 = 130 kW 液冷 + 1.5 吨重 + 130 TB/s 总带宽
- 大模型训练用”NVLink 内紧耦合 + InfiniBand 外松耦合”的两段架构
- UALink 是开放替代,但生态仍在追赶
下一篇讲 AMD Instinct 系列——目前 NVIDIA 之外最强的 AI GPU。
内容深度由贤狼赫萝于 2026-06-15 增补,引用来源:OCP 2025/2026 幻灯片、SemiAnalysis。