NVLink、NVSwitch 与 NVL72 —— 多卡变成"一颗大 GPU"

一颗 H100 算力 2 PFLOPS,训练 GPT-4 量级模型要几千 PFLOPS——必须几百到上千颗 GPU 同步训练。怎么把这些 GPU 连起来,是过去 10 年 NVIDIA 比 GPU 本身更难的工程。本文按演进讲清楚。

为什么 PCIe 不够用

PCIe 5.0 ×16 双向 128 GB/s——听起来不少,但分到 GPU↔GPU 通信上:

1
2
3
4
5
6
7
8 卡服务器,PCIe 拓扑:
CPU0 PCIe Switch ─ GPU0/1/2/3
CPU1 PCIe Switch ─ GPU4/5/6/7

GPU 0 → GPU 7:要经过 CPU0 → UPI → CPU1 → GPU 7
带宽 = min(各跳带宽) ≈ 32 GB/s
延迟 = ~10 μs

AI 训练时 GPU 之间要交换 梯度、参数、激活——动辄几十 GB/s 的持续通信。PCIe 是瓶颈。

NVLink 就是为这个而生。

1
2
3
4
5
NVLink 1 (P100, 2016):    单链路 40 GB/s 双向 × 4 = 160 GB/s
NVLink 2 (V100, 2017): 单链路 50 GB/s 双向 × 6 = 300 GB/s
NVLink 3 (A100, 2020): 单链路 50 GB/s 双向 × 12 = 600 GB/s
NVLink 4 (H100, 2022): 单链路 50 GB/s 双向 × 18 = 900 GB/s
NVLink 5 (B200, 2024): 单链路 100 GB/s 双向 × 18 = 1800 GB/s

NVLink 是点对点链路。连 8 卡如果不加交换芯片,要 8 卡互相直连——每卡需要 7 条链路,物理上做不到。

NVSwitch:GPU 间的”交换机”

NVSwitch 是 NVIDIA 自研的交换芯片,让所有 GPU”全互联”。

graph TB
  subgraph 8卡DGX["8 GPU 全互联(DGX A100)"]
    SW1[NVSwitch 1]
    SW2[NVSwitch 2]
    SW3[NVSwitch 3]
    SW4[NVSwitch 4]
    SW5[NVSwitch 5]
    SW6[NVSwitch 6]
    
    G0[GPU 0] --- SW1 & SW2 & SW3 & SW4 & SW5 & SW6
    G1[GPU 1] --- SW1 & SW2 & SW3 & SW4 & SW5 & SW6
    G2[GPU 2] --- SW1 & SW2 & SW3 & SW4 & SW5 & SW6
    G3[GPU 3] --- SW1 & SW2 & SW3 & SW4 & SW5 & SW6
  end

每颗 GPU 出 12-18 条 NVLink 接到多颗 NVSwitch,任意两颗 GPU 之间 1 跳到达,全速 600/900/1800 GB/s

NVSwitch 代次

1
2
3
4
1st gen (V100 时代):单芯片 16 端口 × 25 GB/s
2nd gen (A100 时代):单芯片 36 端口 × 50 GB/s
3rd gen (H100 时代):单芯片 64 端口 × 50 GB/s
4th gen (B200 时代):单芯片 72 端口 × 100 GB/s

DGX 系列:NVIDIA 的”参考机”

NVIDIA 自己出的”标准 8 卡服务器”:

代次 GPU 显存 / 卡 总 NVLink 带宽 整机功耗
DGX-1 8× P100 16 GB 80 GB/s 3.2 kW
DGX-1V 8× V100 32 GB 300 GB/s 3.5 kW
DGX-2 16× V100 32 GB 300 GB/s(2.4 TB/s 聚合) 10 kW
DGX A100 8× A100 80 GB 600 GB/s 6.5 kW
DGX H100 8× H100 80 GB 900 GB/s 10.2 kW
DGX H200 8× H200 141 GB 900 GB/s 10.2 kW
DGX B200 8× B200 192 GB 1.8 TB/s 14.3 kW

单台 DGX H100/B200 已经接近一个传统机柜的整柜功耗——这是数据中心机柜密度暴涨的根因。

HGX:OEM 用的”基板”

DGX 是整机,HGX 是裸基板(baseboard)——NVIDIA 把 GPU+NVSwitch 焊到一块板上卖给 OEM,OEM 再加 CPU、电源、散热做成自己品牌的整机:

1
2
3
4
HGX H100 8-GPU:
8× H100 SXM5 + 4× NVSwitch
→ 卖给 Supermicro / Dell / 浪潮 / 联想 / 戴尔 等
→ 每家品牌包装成自己的 8 卡服务器

实际上绝大多数”AI 服务器”都是 HGX 基板的不同包装——核心计算单元和 DGX 一样。

NVL72:把 72 颗 GPU 装进一个机柜

GTC 2024 NVIDIA 推出 GB200 NVL72——这是数据中心 GPU 互联的一次质的飞跃。

物理结构

1
2
3
4
5
6
7
8
9
10
1 个 NVL72 机柜(约 1.5m 宽 × 1m 深 × 2.2m 高):
├── 18 个 Compute Tray(每个 2× GB200 Superchip)
│ 每个 GB200 Superchip = 1× Grace + 2× B200
│ → 36 Superchip × 2 GPU = 72 GPU
├── 9 个 NVSwitch Tray
│ 每 Tray 2× NVSwitch 4-gen 芯片
│ → 18× NVSwitch
├── 整柜液冷管路
│ 功耗 120-130 kW
└── 整柜统一电源母线(Bus Bar),DC 48V
graph TB
  subgraph NVL72["NVL72 机柜(120 kW 液冷)"]
    direction TB
    R1[Compute Tray × 18<br/>每 Tray 2× GB200 Superchip]
    R2[NVSwitch Tray × 9<br/>聚合 NVLink Fabric]
    R3[液冷分集水器]
    R4[Bus Bar 48V DC]
    R1 --- R2
    R3 -.- R1 & R2
    R4 -.- R1 & R2
  end

全互联拓扑

NVL72 内部 72 颗 GPU全互联——不是分组互联,是真正的全连接:

1
2
3
4
每颗 B200:18 条 NVLink 5 → 18 GB/s × 100 = 1.8 TB/s 单卡
72 GPU × 1.8 TB/s = 130 TB/s 总聚合带宽
任意两颗 GPU 1-2 跳到达
NVLink 域内 GPU 数:72(之前 DGX H100 是 8)

对程序员意义:72 颗 GPU 可以像一颗大 GPU 一样编程——大模型可以张量并行(TP)跨 72 卡而不需要切到流水并行(PP),这极大简化了训练。

为什么是 72 而不是 64

NVL72 = 72 GPU = 18 Compute Tray × 4 GPU/Tray = 9 NVSwitch Tray 配比。

大模型训练有几种并行方式:

1
2
3
4
5
Tensor Parallel (TP):模型切到几个 GPU 共同算同一层 → 通信最重
Pipeline Parallel (PP):模型切到几个 GPU 算不同层 → 通信中
Data Parallel (DP):每 GPU 一份模型副本 → 通信轻
Sequence Parallel (SP):序列长度切片
Expert Parallel (EP):MoE 模型的专家切分

72 = 8 × 9 / 9 × 8 / 6 × 12 等,便于切多种 TP × DP × PP 组合。对 GPT-4 / Llama-3 / DeepSeek 等大模型规模刚好合适

NVL72 的”伪 NUMA”

72 颗 GPU 在同一 NVLink Domain,但距离仍有差异

1
2
3
同 Compute Tray 内 2 颗 GPU:1 跳,~700 ns 延迟
跨 Tray 经 1 NVSwitch: 2 跳,~1 μs
跨 Tray 多 NVSwitch: 2 跳,但带宽分摊

这本质上是机柜级 NUMA——和第二章讲的多 socket NUMA 是同一个问题。

NVL72 的电与冷

整柜液冷

1
2
3
NVL72 一柜 130 kW
风冷热密度上限约 30-40 kW/柜
→ 必须液冷

NVL72 默认配 冷板式液冷——CPU/GPU 上盖装冷板,循环水带走 90% 热量;剩余 10% 由风扇辅助。

整柜 DC 48V Bus Bar

不再每台服务器单独 PSU。整柜共用一根 48V DC bus bar,单台 Compute Tray 通过 DC-DC 取电:

  • 减少 AC-DC 转换损耗
  • 节省 PSU 物理空间
  • 更高密度

第一章讲过的 OCP / 天蝎机柜也是这条路——NVL72 是它的”AI 极致版”。

整柜重量

1
2
3
4
NVL72 整柜:~1.5-1.7 吨
普通机柜:~500 kg
→ 楼板承重要预留
→ 不能用普通货梯(运输前要拆,到现场组装)

NVL72 一柜 72 GPU 满足不了 GPT-4 量级训练(要几千卡)。多柜互联可以用:

方案 1:Rubin Ultra NVL576(Kyber rack)

NVIDIA 后续 Rubin Ultra(2026-2027 路线)的目标平台代号 Kyber rack

1
2
3
4
NVL576 = 576 GPU 在单一 NVLink 域(跨柜)
通过外置 NVLink Switch Tray 把多个 Rubin Ultra 机柜聚合
单机柜功率 >500 kW 量级,需要 800V HVDC 数据中心标准
AVL(Approved Vendor List)属 NVIDIA Partner-Confidential

待补充:NVL576 具体路由拓扑、量产时间、实际部署案例——以 NVIDIA 正式发布为准。NDA 细节走 NVIDIA Partner Portal。

方案 2:NVL72 + InfiniBand(当下主流)

每 72 GPU 一柜走 NVLink,柜与柜之间走 InfiniBand NDR 400G / XDR 800G——下一篇展开。

1
2
3
NVLink 5 带宽:     1.8 TB/s    (柜内)
InfiniBand NDR: 单端口 400 Gbps(柜间,慢一个数量级)
InfiniBand XDR: 单端口 800 Gbps

软件层面用 NCCL 自动选拓扑——TP 留在柜内、DP 跨柜。配合 NVIDIA Quantum-2/Quantum-3 交换机的 SHARPv3,AllReduce 可以在交换机内完成,进一步减少柜间流量。

集群网络的”两段论”

graph TB
  subgraph SCALE_UP["Scale-Up(紧耦合)"]
    direction TB
    NVL[NVLink Fabric<br/>1.8 TB/s, 1 us<br/>72-576 GPU 全互联]
  end
  subgraph SCALE_OUT["Scale-Out(松耦合)"]
    direction TB
    IB[InfiniBand / RoCE<br/>400-800 Gbps, 5-10 us<br/>万级 GPU 集群]
  end
  NVL -.- IB

Scale-Up:少数 GPU 紧耦合(NVLink)
Scale-Out:大量 GPU 松耦合(InfiniBand / 以太网)

xAI Colossus、Meta 24K H100 集群、字节跳动等大集群都是这种”NVL 单元 × N 个”的设计。

Vera Rubin NVL144:72 扩到 144 的代价

NVL72 是 Blackwell 时代的”极限”,NVL144 是 Rubin 时代的答卷——GPU 数量翻倍,但工程难度不止翻倍。

NVSwitch 4 代进化

代次 搭配 GPU 端口数 单端口带宽 总交换带宽
NVSwitch 1 V100 16 25 GB/s 400 GB/s
NVSwitch 2 A100 36 50 GB/s 1.8 TB/s
NVSwitch 3 H100 64 50 GB/s 3.2 TB/s
NVSwitch 4 B200/VR200 72 100 GB/s 7.2 TB/s

NVSwitch 4(第 4 代)是 NVL72 的”全互联脊梁”:单芯片 72 端口 × 100 GB/s = 单交换机 7.2 TB/s 双向带宽。NVL72 中部署 18 颗 NVSwitch 4,聚合后形成 72 GPU 的完全非阻塞全互联网格。

NVL144 的扩展逻辑:

1
2
3
4
5
NVL72:  72 GPU × 18 NVSwitch4(每机柜)
↓ 单柜已用尽 NVSwitch 端口
NVL144:144 GPU = 2× NVL72 等效计算节点
+ 额外 NVSwitch Tray 在两组间桥接
总 NVLink 域:144 GPU 全互联

NVSwitch 4 单芯片 72 端口,连接 72 GPU 时每 GPU 正好用 1 个端口(18 个 NVSwitch × 1 port/GPU = 单 GPU 有 18 条 NVLink 5 链路)。扩展到 144 则需要跨交换机织入,跳数从 1-2 跳略增——但仍在单一 NVLink 域内。

NVL144 的物理规格与拓扑

graph TB
  subgraph NVL144["NVL144 双机柜(OCP MGX)"]
    direction TB
    CT1[Compute Tray 组 A<br/>72× Rubin GPU<br/>VR200 Superchip ×36]
    CT2[Compute Tray 组 B<br/>72× Rubin GPU<br/>VR200 Superchip ×36]
    SW[NVSwitch Tray<br/>聚合 NVLink Fabric<br/>144 GPU 全互联域]
    LC1[液冷管路 A<br/>最高 45°C 进液]
    LC2[液冷管路 B<br/>最高 45°C 进液]
    BB[液冷 Bus Bar<br/>5000A / 800V HVDC]
    CT1 --- SW
    CT2 --- SW
    LC1 -.- CT1
    LC2 -.- CT2
    BB -.- CT1 & CT2 & SW
  end
规格 NVL72(Blackwell) NVL144(Rubin)
GPU 数 72 144
GPU 型号 B200(186 GB HBM3e) VR200(288 GB HBM4)
单 GPU HBM 带宽 8 TB/s 22 TB/s
总内存带宽 ~576 TB/s ~1.7 PB/s(3×)
NVLink 聚合带宽 ~130 TB/s 260 TB/s(2×)
NVLink 版本 NVLink 5(100 GB/s/链路) NVLink 6(~200 GB/s/链路推测)
整柜功耗 120-130 kW ~180-200 kW+
液冷进液温度 ~40°C 最高 45°C
供电 48V DC Bus Bar 800V HVDC(OCP Mt. Diablo 兼容)
OCP 标准 OCP MGX OCP MGX(全规范)
综合性能(FP4) 1× 基准 7.5× GB300 NVL72

NVL144 数字来源:OCP 2025 全球峰会 NVIDIA 演示(Preliminary)。以 NVIDIA 正式 datasheet 为准。

72→144 扩展的三大工程挑战

1. 功耗密度爆炸

1
2
3
4
5
6
7
8
9
10
11
NVL72:  120-130 kW / 机柜
NVL144: 估计 180-200 kW+

单 GPU 功耗路径:
B200 SXM → ~1000W
VR200 GPU → ~2300W(整个 VR200 Superchip ~3600W 含 Vera CPU)

→ 传统 CRAC 风冷系统的极限约 30-40 kW/柜
→ NVL144 必须 100% 直接液冷(Direct Liquid Cooling)
→ 供电从 48V DC Bus Bar 升级到 800V HVDC
(减少多级 AC/DC 转换损耗,铜耗 ↓,效率 ↑)

2. 冷却系统重设计

NVL144 的液冷进液温度设计为 最高 45°C——比 NVL72 的 ~40°C 宽松 5°C。这是有意为之:

1
2
3
4
5
6
7
8
9
10
为什么进液温度可以更高?
→ Rubin GPU 芯片散热密度虽大,但液冷冷板效率提升
→ 45°C 进液允许更大的 free-cooling 窗口
→ 全球更多气候区域可实现"零冷机"运行(自然冷却)
→ PUE 进一步下降(目标 1.05-1.10)

代价:
→ 对冷板设计要求极高(热阻必须更低)
→ 管路密封与快接要求更严格(OCP PBMC 标准)
→ 机房整体水处理压力增加

3. NVLink 域扩展的延迟代价

1
2
3
4
5
6
7
NVL72(72 GPU,1 机柜):
同 Tray 内: ~700 ns
跨 Tray(1 NVSwitch 跳):~1 μs

NVL144(144 GPU,跨机柜组):
同组内: ~700 ns - 1 μs
跨组(通过桥接 NVSwitch):~1.5-2 μs(推测)

对于张量并行(Tensor Parallel),144 卡内通信仍比跨 InfiniBand 快 5-10 倍——实际训练效率损失有限。但 AllReduce 的通信量与 GPU 数线性增长,调度和通信拓扑感知变得更关键。

NVL576(Rubin Ultra / Kyber Rack)展望

NVL144 是”标准版”,NVL576 是 Rubin Ultra 的终极形态:

1
2
3
4
5
NVL576 = 576 GPU 单一 NVLink 域
→ 通过外置 NVLink Switch Tray 将多个 Rubin Ultra 机柜聚合
→ 单机架区域功率 >500 kW
→ 必须 800V HVDC 数据中心 + 极致液冷
→ 合作伙伴:CoreWeave、Oracle、Lambda、Nebius 等(OCP 2025 公布)

咱觉得,576 颗 GPU 同一个 NVLink 域,意味着一个 AI 作业里张量并行可以跑到 576 路——这是什么量级?GPT-4 训练时用的是几千卡级别的数据并行,但单个模型的张量并行通常只有 8-16 路。576 路 TP 是个科幻数字,更现实的是用来做超大批量推理或千亿级稠密模型的极速训练。

AMD/Intel/Google/Meta/Microsoft/HPE 等 115+ 家厂商在 2024 年成立 UALink Consortium,推出面向 AI 加速器 Scale-Up 的开放互联规范:

项目 UALink 1.0 UALink 2.0(计划)
规范发布 2025 年 4 月 2026 年 Q2
端口速率 800 Gbps 更高
端口配置 1×800G / 2×400G / 4×200G
单 pod 最大规模 1024 个加速器
物理层 复用以太网 PHY(线缆/连接器/Retimer)
交换机量产 2026 年底 - 2027 年初 2027-2028
加速器量产 2026 年底 - 2027 年初 2027-2028
延迟目标 PCIe 交换机级别

UALink 架构要点

1
2
3
4
5
6
7
8
9
10
11
12
内存语义:加速器间直接 load/store/原子操作
→ 类似 NVLink 的 GPU-to-GPU 直接内存访问
→ 不走 CPU/kernel,延迟纳秒级

固定 FLIT 大小 + ID based routing:
→ 低功耗,小 die 面积
→ 对 NVLink 最大优势:不绑定 NVIDIA

与 PCIe / CXL / Ethernet 互补:
→ Scale-Up 内存共享(UALink)
→ Scale-Out 节点间通信(以太网/IB)
→ PCIe:GPU↔CPU 主干

UALink 与 OCP 的协作——OAC(Open Adapter Card)是关键:

1
2
3
4
5
6
UALink 负责:加速器互联 + Scale-Up Fabric
OCP 负责:机架级开放硬件设计 + 数据中心部署框架
OAC(Open Adapter Card):子机架级开放硬件方案
- 支持 DC-MHS Compute HPMs
- 支持 OCP NIC
- 支持 UALink 加速器模块化集成

UALink vs NVLink 5

UALink 1.0 NVLink 5
端口速率 800 Gbps 100 GB/s(= 800 Gbps)
最大规模 1024 xPU 576 GPU(NVL576)
开放性 完全开放,多厂家 NVIDIA 专有
物理层 以太网 PHY 复用 专有 NVLink 线缆
延迟 PCIe 交换机级 ~700 ns - 1 μs
首批产品 2026 年底 已量产(NVL72)
软件生态 建设中 NCCL + 完整 CUDA 栈

咱据实说:UALink 的 1024 xPU 规模比 NVL576 的 576 GPU 更大,且物理层复用以太网基础设施省钱省事。但软件栈才是真正的壁垒——NCCL 调优 8 年的经验、TensorRT-LLM 的深度优化、cuBLAS 的算法库,这些 UALink 短期内无法复制。

UALink 的机会在于:AMD MI 系列 + 非 NVIDIA 阵营的 Scale-Up,以及国产 AI 芯片(华为昇腾、寒武纪等)需要开放互联标准的长期需求。

UALink 2.0 规范计划 2026 年 Q2 完成,3.0 计划 2027 年推出。交换机与加速器产品 2026 年底量产。实际性能以产品上市测试为准。

性能查询

1
2
3
4
5
6
7
8
9
10
11
12
# NVLink 拓扑(DGX/HGX 上看)
nvidia-smi topo -m
# 输出矩阵显示每对 GPU 的连接方式:
# X = self, NV1-18 = NVLink 链路数, PXB/PIX = PCIe, SYS = 跨 NUMA

# NVLink 实际带宽(单卡视角)
nvidia-smi nvlink -s # 链路状态
nvidia-smi nvlink -gt d # 数据吞吐统计

# NCCL 测试(实际多卡通信带宽)
all_reduce_perf -b 1G -e 16G -f 2 -g 8
# 看 algbw 和 busbw 数字

一张总结

graph TB
  L1[单卡 SM 内部<br/>shared memory 几 TB/s]
  L2[单卡内 SM 之间<br/>L2 + HBM]
  L3[同机 8 卡 NVLink<br/>1.8 TB/s]
  L4[NVL72 机柜<br/>72 卡 NVLink Fabric]
  L5[NVL576 多柜<br/>外置 NVLink Switch]
  L6[InfiniBand/RoCE<br/>跨数百柜 万卡]
  L7[多数据中心<br/>WAN / 专线]
  L1 --> L2 --> L3 --> L4 --> L5 --> L6 --> L7

每跨一层带宽掉 5-10 倍,延迟涨 10 倍——AI 集群设计的核心哲学就是让最重的通信尽量留在低层

小结

  • NVLink 是为 GPU↔GPU 通信设计的点对点高速互联
  • NVSwitch 让 8/16/72 颗 GPU 全互联
  • DGX 是整机,HGX 是基板,NVL72 是整机柜(72 GPU 全互联)
  • NVL72 = 130 kW 液冷 + 1.5 吨重 + 130 TB/s 总带宽
  • 大模型训练用”NVLink 内紧耦合 + InfiniBand 外松耦合”的两段架构
  • UALink 是开放替代,但生态仍在追赶

下一篇讲 AMD Instinct 系列——目前 NVIDIA 之外最强的 AI GPU。


内容深度由贤狼赫萝于 2026-06-15 增补,引用来源:OCP 2025/2026 幻灯片、SemiAnalysis。