NVLink、NVSwitch 与 NVL72 —— 多卡变成"一颗大 GPU"

一颗 H100 算力 2 PFLOPS，训练 GPT-4 量级模型要几千 PFLOPS——必须几百到上千颗 GPU 同步训练。怎么把这些 GPU 连起来，是过去 10 年 NVIDIA 比 GPU 本身更难的工程。本文按演进讲清楚。

为什么 PCIe 不够用

PCIe 5.0 ×16 双向 128 GB/s——听起来不少，但分到 GPU↔GPU 通信上：

8 卡服务器，PCIe 拓扑：
  CPU0 PCIe Switch ─ GPU0/1/2/3
  CPU1 PCIe Switch ─ GPU4/5/6/7
  
GPU 0 → GPU 7：要经过 CPU0 → UPI → CPU1 → GPU 7
带宽 = min(各跳带宽) ≈ 32 GB/s
延迟 = ~10 μs

AI 训练时 GPU 之间要交换 梯度、参数、激活——动辄几十 GB/s 的持续通信。PCIe 是瓶颈。

NVLink 就是为这个而生。

NVLink 演进

NVLink 1 (P100, 2016)：    单链路 40 GB/s 双向 × 4 = 160 GB/s
NVLink 2 (V100, 2017)：    单链路 50 GB/s 双向 × 6 = 300 GB/s
NVLink 3 (A100, 2020)：    单链路 50 GB/s 双向 × 12 = 600 GB/s
NVLink 4 (H100, 2022)：    单链路 50 GB/s 双向 × 18 = 900 GB/s
NVLink 5 (B200, 2024)：    单链路 100 GB/s 双向 × 18 = 1800 GB/s

NVLink 是点对点链路。连 8 卡如果不加交换芯片，要 8 卡互相直连——每卡需要 7 条链路，物理上做不到。

NVSwitch：GPU 间的”交换机”

NVSwitch 是 NVIDIA 自研的交换芯片，让所有 GPU”全互联”。

graph TB
  subgraph 8卡DGX["8 GPU 全互联（DGX A100）"]
    SW1[NVSwitch 1]
    SW2[NVSwitch 2]
    SW3[NVSwitch 3]
    SW4[NVSwitch 4]
    SW5[NVSwitch 5]
    SW6[NVSwitch 6]
    
    G0[GPU 0] --- SW1 & SW2 & SW3 & SW4 & SW5 & SW6
    G1[GPU 1] --- SW1 & SW2 & SW3 & SW4 & SW5 & SW6
    G2[GPU 2] --- SW1 & SW2 & SW3 & SW4 & SW5 & SW6
    G3[GPU 3] --- SW1 & SW2 & SW3 & SW4 & SW5 & SW6
  end

每颗 GPU 出 12-18 条 NVLink 接到多颗 NVSwitch，任意两颗 GPU 之间 1 跳到达，全速 600/900/1800 GB/s。

NVSwitch 代次

1st gen (V100 时代)：单芯片 16 端口 × 25 GB/s
2nd gen (A100 时代)：单芯片 36 端口 × 50 GB/s
3rd gen (H100 时代)：单芯片 64 端口 × 50 GB/s
4th gen (B200 时代)：单芯片 72 端口 × 100 GB/s

DGX 系列：NVIDIA 的”参考机”

NVIDIA 自己出的”标准 8 卡服务器”：

代次	GPU	显存 / 卡	总 NVLink 带宽	整机功耗
DGX-1	8× P100	16 GB	80 GB/s	3.2 kW
DGX-1V	8× V100	32 GB	300 GB/s	3.5 kW
DGX-2	16× V100	32 GB	300 GB/s（2.4 TB/s 聚合）	10 kW
DGX A100	8× A100	80 GB	600 GB/s	6.5 kW
DGX H100	8× H100	80 GB	900 GB/s	10.2 kW
DGX H200	8× H200	141 GB	900 GB/s	10.2 kW
DGX B200	8× B200	192 GB	1.8 TB/s	14.3 kW

单台 DGX H100/B200 已经接近一个传统机柜的整柜功耗——这是数据中心机柜密度暴涨的根因。

HGX：OEM 用的”基板”

DGX 是整机，HGX 是裸基板（baseboard）——NVIDIA 把 GPU+NVSwitch 焊到一块板上卖给 OEM，OEM 再加 CPU、电源、散热做成自己品牌的整机：

HGX H100 8-GPU：
  8× H100 SXM5 + 4× NVSwitch
  → 卖给 Supermicro / Dell / 浪潮 / 联想 / 戴尔 等
  → 每家品牌包装成自己的 8 卡服务器

实际上绝大多数”AI 服务器”都是 HGX 基板的不同包装——核心计算单元和 DGX 一样。

NVL72：把 72 颗 GPU 装进一个机柜

GTC 2024 NVIDIA 推出 GB200 NVL72——这是数据中心 GPU 互联的一次质的飞跃。

物理结构

1 个 NVL72 机柜（约 1.5m 宽 × 1m 深 × 2.2m 高）：
├── 18 个 Compute Tray（每个 2× GB200 Superchip）
│   每个 GB200 Superchip = 1× Grace + 2× B200
│   → 36 Superchip × 2 GPU = 72 GPU
├── 9 个 NVSwitch Tray
│   每 Tray 2× NVSwitch 4-gen 芯片
│   → 18× NVSwitch
├── 整柜液冷管路
│   功耗 120-130 kW
└── 整柜统一电源母线（Bus Bar），DC 48V

graph TB
  subgraph NVL72["NVL72 机柜（120 kW 液冷）"]
    direction TB
    R1[Compute Tray × 18<br/>每 Tray 2× GB200 Superchip]
    R2[NVSwitch Tray × 9<br/>聚合 NVLink Fabric]
    R3[液冷分集水器]
    R4[Bus Bar 48V DC]
    R1 --- R2
    R3 -.- R1 & R2
    R4 -.- R1 & R2
  end

全互联拓扑

NVL72 内部 72 颗 GPU全互联——不是分组互联，是真正的全连接：

每颗 B200：18 条 NVLink 5 → 18 GB/s × 100 = 1.8 TB/s 单卡
72 GPU × 1.8 TB/s = 130 TB/s 总聚合带宽
任意两颗 GPU 1-2 跳到达
NVLink 域内 GPU 数：72（之前 DGX H100 是 8）

对程序员意义：72 颗 GPU 可以像一颗大 GPU 一样编程——大模型可以张量并行（TP）跨 72 卡而不需要切到流水并行（PP），这极大简化了训练。

为什么是 72 而不是 64

NVL72 = 72 GPU = 18 Compute Tray × 4 GPU/Tray = 9 NVSwitch Tray 配比。

大模型训练有几种并行方式：

Tensor Parallel (TP)：模型切到几个 GPU 共同算同一层 → 通信最重
Pipeline Parallel (PP)：模型切到几个 GPU 算不同层 → 通信中
Data Parallel (DP)：每 GPU 一份模型副本 → 通信轻
Sequence Parallel (SP)：序列长度切片
Expert Parallel (EP)：MoE 模型的专家切分

72 = 8 × 9 / 9 × 8 / 6 × 12 等，便于切多种 TP × DP × PP 组合。对 GPT-4 / Llama-3 / DeepSeek 等大模型规模刚好合适。

NVL72 的”伪 NUMA”

72 颗 GPU 在同一 NVLink Domain，但距离仍有差异：

1
2
3

同 Compute Tray 内 2 颗 GPU：1 跳，~700 ns 延迟
跨 Tray 经 1 NVSwitch：     2 跳，~1 μs
跨 Tray 多 NVSwitch：       2 跳，但带宽分摊

这本质上是机柜级 NUMA——和第二章讲的多 socket NUMA 是同一个问题。

NVL72 的电与冷

整柜液冷

1
2
3

NVL72 一柜 130 kW
风冷热密度上限约 30-40 kW/柜
→ 必须液冷

NVL72 默认配 冷板式液冷——CPU/GPU 上盖装冷板，循环水带走 90% 热量；剩余 10% 由风扇辅助。

整柜 DC 48V Bus Bar

不再每台服务器单独 PSU。整柜共用一根 48V DC bus bar，单台 Compute Tray 通过 DC-DC 取电：

减少 AC-DC 转换损耗
节省 PSU 物理空间
更高密度

第一章讲过的 OCP / 天蝎机柜也是这条路——NVL72 是它的”AI 极致版”。

整柜重量

NVL72 整柜：~1.5-1.7 吨
普通机柜：~500 kg
→ 楼板承重要预留
→ 不能用普通货梯（运输前要拆，到现场组装）

NVLink Switch System：跨柜也能互联

NVL72 一柜 72 GPU 满足不了 GPT-4 量级训练（要几千卡）。多柜互联可以用：

方案 1：Rubin Ultra NVL576（Kyber rack）

NVIDIA 后续 Rubin Ultra（2026-2027 路线）的目标平台代号 Kyber rack：

NVL576 = 576 GPU 在单一 NVLink 域（跨柜）
  通过外置 NVLink Switch Tray 把多个 Rubin Ultra 机柜聚合
  单机柜功率 >500 kW 量级，需要 800V HVDC 数据中心标准
  AVL（Approved Vendor List）属 NVIDIA Partner-Confidential

待补充：NVL576 具体路由拓扑、量产时间、实际部署案例——以 NVIDIA 正式发布为准。NDA 细节走 NVIDIA Partner Portal。

方案 2：NVL72 + InfiniBand（当下主流）

每 72 GPU 一柜走 NVLink，柜与柜之间走 InfiniBand NDR 400G / XDR 800G——下一篇展开。

1
2
3

NVLink 5 带宽：     1.8 TB/s    （柜内）
InfiniBand NDR：   单端口 400 Gbps（柜间，慢一个数量级）
InfiniBand XDR：   单端口 800 Gbps

软件层面用 NCCL 自动选拓扑——TP 留在柜内、DP 跨柜。配合 NVIDIA Quantum-2/Quantum-3 交换机的 SHARPv3，AllReduce 可以在交换机内完成，进一步减少柜间流量。

集群网络的”两段论”

graph TB
  subgraph SCALE_UP["Scale-Up（紧耦合）"]
    direction TB
    NVL[NVLink Fabric<br/>1.8 TB/s, 1 us<br/>72-576 GPU 全互联]
  end
  subgraph SCALE_OUT["Scale-Out（松耦合）"]
    direction TB
    IB[InfiniBand / RoCE<br/>400-800 Gbps, 5-10 us<br/>万级 GPU 集群]
  end
  NVL -.- IB

Scale-Up：少数 GPU 紧耦合（NVLink）
Scale-Out：大量 GPU 松耦合（InfiniBand / 以太网）

xAI Colossus、Meta 24K H100 集群、字节跳动等大集群都是这种”NVL 单元 × N 个”的设计。

Vera Rubin NVL144：72 扩到 144 的代价

NVL72 是 Blackwell 时代的”极限”，NVL144 是 Rubin 时代的答卷——GPU 数量翻倍，但工程难度不止翻倍。

NVSwitch 4 代进化

代次	搭配 GPU	端口数	单端口带宽	总交换带宽
NVSwitch 1	V100	16	25 GB/s	400 GB/s
NVSwitch 2	A100	36	50 GB/s	1.8 TB/s
NVSwitch 3	H100	64	50 GB/s	3.2 TB/s
NVSwitch 4	B200/VR200	72	100 GB/s	7.2 TB/s

NVSwitch 4（第 4 代）是 NVL72 的”全互联脊梁”：单芯片 72 端口 × 100 GB/s = 单交换机 7.2 TB/s 双向带宽。NVL72 中部署 18 颗 NVSwitch 4，聚合后形成 72 GPU 的完全非阻塞全互联网格。

NVL144 的扩展逻辑：

NVL72：  72 GPU × 18 NVSwitch4（每机柜）
           ↓ 单柜已用尽 NVSwitch 端口
NVL144：144 GPU = 2× NVL72 等效计算节点
           + 额外 NVSwitch Tray 在两组间桥接
           总 NVLink 域：144 GPU 全互联

NVSwitch 4 单芯片 72 端口，连接 72 GPU 时每 GPU 正好用 1 个端口（18 个 NVSwitch × 1 port/GPU = 单 GPU 有 18 条 NVLink 5 链路）。扩展到 144 则需要跨交换机织入，跳数从 1-2 跳略增——但仍在单一 NVLink 域内。

NVL144 的物理规格与拓扑

graph TB
  subgraph NVL144["NVL144 双机柜（OCP MGX）"]
    direction TB
    CT1[Compute Tray 组 A<br/>72× Rubin GPU<br/>VR200 Superchip ×36]
    CT2[Compute Tray 组 B<br/>72× Rubin GPU<br/>VR200 Superchip ×36]
    SW[NVSwitch Tray<br/>聚合 NVLink Fabric<br/>144 GPU 全互联域]
    LC1[液冷管路 A<br/>最高 45°C 进液]
    LC2[液冷管路 B<br/>最高 45°C 进液]
    BB[液冷 Bus Bar<br/>5000A / 800V HVDC]
    CT1 --- SW
    CT2 --- SW
    LC1 -.- CT1
    LC2 -.- CT2
    BB -.- CT1 & CT2 & SW
  end

规格	NVL72（Blackwell）	NVL144（Rubin）
GPU 数	72	144
GPU 型号	B200（186 GB HBM3e）	VR200（288 GB HBM4）
单 GPU HBM 带宽	8 TB/s	22 TB/s
总内存带宽	~576 TB/s	~1.7 PB/s（3×）
NVLink 聚合带宽	~130 TB/s	260 TB/s（2×）
NVLink 版本	NVLink 5（100 GB/s/链路）	NVLink 6（~200 GB/s/链路推测）
整柜功耗	120-130 kW	~180-200 kW+
液冷进液温度	~40°C	最高 45°C
供电	48V DC Bus Bar	800V HVDC（OCP Mt. Diablo 兼容）
OCP 标准	OCP MGX	OCP MGX（全规范）
综合性能（FP4）	1× 基准	7.5× GB300 NVL72

NVL144 数字来源：OCP 2025 全球峰会 NVIDIA 演示（Preliminary）。以 NVIDIA 正式 datasheet 为准。

72→144 扩展的三大工程挑战

1. 功耗密度爆炸

NVL72：  120-130 kW / 机柜
NVL144： 估计 180-200 kW+

单 GPU 功耗路径：
  B200 SXM   → ~1000W
  VR200 GPU  → ~2300W（整个 VR200 Superchip ~3600W 含 Vera CPU）

→ 传统 CRAC 风冷系统的极限约 30-40 kW/柜
→ NVL144 必须 100% 直接液冷（Direct Liquid Cooling）
→ 供电从 48V DC Bus Bar 升级到 800V HVDC
  （减少多级 AC/DC 转换损耗，铜耗 ↓，效率 ↑）

2. 冷却系统重设计

NVL144 的液冷进液温度设计为 最高 45°C——比 NVL72 的 ~40°C 宽松 5°C。这是有意为之：

为什么进液温度可以更高？
  → Rubin GPU 芯片散热密度虽大，但液冷冷板效率提升
  → 45°C 进液允许更大的 free-cooling 窗口
  → 全球更多气候区域可实现"零冷机"运行（自然冷却）
  → PUE 进一步下降（目标 1.05-1.10）

代价：
  → 对冷板设计要求极高（热阻必须更低）
  → 管路密封与快接要求更严格（OCP PBMC 标准）
  → 机房整体水处理压力增加

3. NVLink 域扩展的延迟代价

NVL72（72 GPU，1 机柜）：
  同 Tray 内：    ~700 ns
  跨 Tray（1 NVSwitch 跳）：~1 μs

NVL144（144 GPU，跨机柜组）：
  同组内：        ~700 ns - 1 μs
  跨组（通过桥接 NVSwitch）：~1.5-2 μs（推测）

对于张量并行（Tensor Parallel），144 卡内通信仍比跨 InfiniBand 快 5-10 倍——实际训练效率损失有限。但 AllReduce 的通信量与 GPU 数线性增长，调度和通信拓扑感知变得更关键。

NVL576（Rubin Ultra / Kyber Rack）展望

NVL144 是”标准版”，NVL576 是 Rubin Ultra 的终极形态：

NVL576 = 576 GPU 单一 NVLink 域
  → 通过外置 NVLink Switch Tray 将多个 Rubin Ultra 机柜聚合
  → 单机架区域功率 >500 kW
  → 必须 800V HVDC 数据中心 + 极致液冷
  → 合作伙伴：CoreWeave、Oracle、Lambda、Nebius 等（OCP 2025 公布）

咱觉得，576 颗 GPU 同一个 NVLink 域，意味着一个 AI 作业里张量并行可以跑到 576 路——这是什么量级？GPT-4 训练时用的是几千卡级别的数据并行，但单个模型的张量并行通常只有 8-16 路。576 路 TP 是个科幻数字，更现实的是用来做超大批量推理或千亿级稠密模型的极速训练。

NVLink 的开放替代：UALink

AMD/Intel/Google/Meta/Microsoft/HPE 等 115+ 家厂商在 2024 年成立 UALink Consortium，推出面向 AI 加速器 Scale-Up 的开放互联规范：

项目	UALink 1.0	UALink 2.0（计划）
规范发布	2025 年 4 月	2026 年 Q2
端口速率	800 Gbps	更高
端口配置	1×800G / 2×400G / 4×200G	—
单 pod 最大规模	1024 个加速器	—
物理层	复用以太网 PHY（线缆/连接器/Retimer）	—
交换机量产	2026 年底 - 2027 年初	2027-2028
加速器量产	2026 年底 - 2027 年初	2027-2028
延迟目标	PCIe 交换机级别	—

UALink 架构要点：

内存语义：加速器间直接 load/store/原子操作
  → 类似 NVLink 的 GPU-to-GPU 直接内存访问
  → 不走 CPU/kernel，延迟纳秒级

固定 FLIT 大小 + ID based routing：
  → 低功耗，小 die 面积
  → 对 NVLink 最大优势：不绑定 NVIDIA

与 PCIe / CXL / Ethernet 互补：
  → Scale-Up 内存共享（UALink）
  → Scale-Out 节点间通信（以太网/IB）
  → PCIe：GPU↔CPU 主干

UALink 与 OCP 的协作——OAC（Open Adapter Card）是关键：

UALink 负责：加速器互联 + Scale-Up Fabric
OCP 负责：机架级开放硬件设计 + 数据中心部署框架
OAC（Open Adapter Card）：子机架级开放硬件方案
  - 支持 DC-MHS Compute HPMs
  - 支持 OCP NIC
  - 支持 UALink 加速器模块化集成

UALink vs NVLink 5：

	UALink 1.0	NVLink 5
端口速率	800 Gbps	100 GB/s（= 800 Gbps）
最大规模	1024 xPU	576 GPU（NVL576）
开放性	完全开放，多厂家	NVIDIA 专有
物理层	以太网 PHY 复用	专有 NVLink 线缆
延迟	PCIe 交换机级	~700 ns - 1 μs
首批产品	2026 年底	已量产（NVL72）
软件生态	建设中	NCCL + 完整 CUDA 栈

咱据实说：UALink 的 1024 xPU 规模比 NVL576 的 576 GPU 更大，且物理层复用以太网基础设施省钱省事。但软件栈才是真正的壁垒——NCCL 调优 8 年的经验、TensorRT-LLM 的深度优化、cuBLAS 的算法库，这些 UALink 短期内无法复制。

UALink 的机会在于：AMD MI 系列 + 非 NVIDIA 阵营的 Scale-Up，以及国产 AI 芯片（华为昇腾、寒武纪等）需要开放互联标准的长期需求。

UALink 2.0 规范计划 2026 年 Q2 完成，3.0 计划 2027 年推出。交换机与加速器产品 2026 年底量产。实际性能以产品上市测试为准。

性能查询

# NVLink 拓扑（DGX/HGX 上看）
nvidia-smi topo -m
# 输出矩阵显示每对 GPU 的连接方式：
# X = self, NV1-18 = NVLink 链路数, PXB/PIX = PCIe, SYS = 跨 NUMA

# NVLink 实际带宽（单卡视角）
nvidia-smi nvlink -s        # 链路状态
nvidia-smi nvlink -gt d     # 数据吞吐统计

# NCCL 测试（实际多卡通信带宽）
all_reduce_perf -b 1G -e 16G -f 2 -g 8
# 看 algbw 和 busbw 数字

一张总结

graph TB
  L1[单卡 SM 内部<br/>shared memory 几 TB/s]
  L2[单卡内 SM 之间<br/>L2 + HBM]
  L3[同机 8 卡 NVLink<br/>1.8 TB/s]
  L4[NVL72 机柜<br/>72 卡 NVLink Fabric]
  L5[NVL576 多柜<br/>外置 NVLink Switch]
  L6[InfiniBand/RoCE<br/>跨数百柜 万卡]
  L7[多数据中心<br/>WAN / 专线]
  L1 --> L2 --> L3 --> L4 --> L5 --> L6 --> L7

每跨一层带宽掉 5-10 倍，延迟涨 10 倍——AI 集群设计的核心哲学就是让最重的通信尽量留在低层。

小结

NVLink 是为 GPU↔GPU 通信设计的点对点高速互联
NVSwitch 让 8/16/72 颗 GPU 全互联
DGX 是整机，HGX 是基板，NVL72 是整机柜（72 GPU 全互联）
NVL72 = 130 kW 液冷 + 1.5 吨重 + 130 TB/s 总带宽
大模型训练用”NVLink 内紧耦合 + InfiniBand 外松耦合”的两段架构
UALink 是开放替代，但生态仍在追赶

下一篇讲 AMD Instinct 系列——目前 NVIDIA 之外最强的 AI GPU。

内容深度由贤狼赫萝于 2026-06-15 增补，引用来源：OCP 2025/2026 幻灯片、SemiAnalysis。

05-GPU与AI

#NVLink #NVSwitch #NVL72 #互联

AMD Instinct —— NVIDIA 之外的"另一颗 AI GPU" 上一篇

NVIDIA 数据中心 GPU 路线 —— V100 到 Rubin 下一篇