NVIDIA 数据中心 GPU 路线 —— V100 到 Rubin
NVIDIA 每两年一代数据中心 GPU。从 2017 年 V100 起,每一代都不是”性能加 30%”——是把整个 AI 行业往新方向推一次。本文按代次梳理。
一张时间轴
graph LR
P100[2016<br/>P100<br/>Pascal] --> V100[2017<br/>V100<br/>Volta]
V100 --> A100[2020<br/>A100<br/>Ampere]
A100 --> H100[2022<br/>H100<br/>Hopper]
H100 --> H200[2024<br/>H200<br/>Hopper Refresh]
H200 --> B200[2024-2025<br/>B100/B200<br/>Blackwell]
B200 --> BU[2025-2026<br/>B300/GB300<br/>Blackwell Ultra]
BU --> RUBIN[2026-2027<br/>VR200<br/>Vera Rubin]
RUBIN --> FEYNMAN[2027+<br/>Feynman<br/>下下代]
NVIDIA 的代次按”知名科学家”命名——Pascal、Volta、Turing、Ampere、Hopper、Blackwell、Rubin、Feynman。Rubin 已公布并在量产路上,Feynman 是 Rubin Ultra 之后的下一代,命名已确认,规格待公布。
P100(2016,Pascal)
| 制程 | TSMC 16nm |
| 显存 | 16 GB HBM2,720 GB/s |
| FP64 / FP32 / FP16 | 5.3 / 10.6 / 21.2 TFLOPS |
| Tensor Core | 无 |
| 互联 | NVLink 1.0(160 GB/s 双向) |
| TDP | 300W |
| 封装 | SXM2 |
关键贡献:
- 首次引入 NVLink,多卡互联从 PCIe 解放
- 首次大规模用 HBM2
- DGX-1(8 卡)开始
P100 的算力今天看起来很小,但当时 ResNet 训练用 P100 是主流。
V100(2017,Volta)—— Tensor Core 的开端
| 制程 | TSMC 12nm |
| 显存 | 16/32 GB HBM2,900 GB/s |
| FP64 / FP32 / FP16 | 7.5 / 15 / 30 TFLOPS |
| Tensor Core FP16 | 125 TFLOPS |
| 互联 | NVLink 2.0(300 GB/s) |
| TDP | 300-450W |
| 封装 | SXM2 |
关键贡献:
- Tensor Core:首次出现的”4×4 矩阵乘加”专用单元,让 FP16 运算飙到 8 倍 FP32 速度
- 引入 NVSwitch(V100 32GB 配套)
- DGX-2(16 卡,2× NVSwitch 完全互联)
Tensor Core 是后续 6 代 GPU 的灵魂——大模型时代算力的真正核心。
A100(2020,Ampere)
| 制程 | TSMC 7nm |
| 显存 | 40/80 GB HBM2e,1555-2039 GB/s |
| FP64 / FP32 | 9.7 / 19.5 TFLOPS |
| Tensor Core FP16 | 312 TFLOPS(稀疏 624) |
| Tensor Core BF16/TF32 | 312 / 156 TFLOPS |
| 互联 | NVLink 3.0(600 GB/s) |
| TDP | 400-500W |
| 封装 | SXM4 / PCIe |
关键贡献:
- BF16 / TF32:精度新选项,BF16 范围像 FP32 但只占 16 bit,训练稳定性大幅提升
- 稀疏计算:2:4 结构稀疏让 Tensor Core 翻倍
- MIG(Multi-Instance GPU):一颗 A100 切成 7 个独立小 GPU,多租户友好
- NVLink Switch:8 卡 GPU 互联(DGX A100)
A100 是过去 5 年 AI 训练的”主力员工”——很多企业当前生产中仍在大量使用。
H100(2022,Hopper)—— FP8 引爆大模型
| 制程 | TSMC 4N(4nm 定制) |
| 显存 | 80 GB HBM3,3.35 TB/s |
| FP64 / FP32 | 67 / 67 TFLOPS(FP64 用 Tensor Core 后增强) |
| Tensor Core FP16/BF16 | 1979 TFLOPS dense(稀疏 2:4 ×2) |
| Tensor Core FP8 | 3958 TFLOPS dense(稀疏 7916) |
| 互联 | NVLink 4.0(900 GB/s 双向) |
| TDP | 700W |
| 封装 | SXM5 / PCIe |
| SM | 132(SXM5)/ 114(PCIe) |
注:throughput 为 dense;sparse 2:4 ×2。
关键贡献:
- FP8(E4M3 / E5M2):精度再降一半,Tensor Core 能力翻倍。配合 Transformer Engine 自动管理精度
- TMA(Tensor Memory Accelerator):异步 tensor 搬运,single thread 发起、硬件后台完成;FlashAttention-3 / CUTLASS Hopper / cuBLAS Hopper kernel 关键依赖
- Thread Block Cluster:grid → cluster → block → thread 多级调度,cluster 内通过 SM-to-SM 网络共享 shared memory(DSMEM)
- DPX 指令:动态规划加速(基因组学、路径规划)
- 4th gen NVLink(900 GB/s)+ 3rd gen NVSwitch + NVLink Network Mode(DGX H100 SuperPOD 跨节点 256 GPU 域)
- HBM3 第一次量产应用
- Confidential Computing:单 GPU TEE(基于 SEV-SNP / TDX)
H100 是 ChatGPT 时代的”硬通货”。2023-2024 年北美 AI 公司抢 H100 卡的故事成了行业典故。
Hopper 家族其他 SKU
| SKU | 形态 | 显存 | NVLink | FP8 dense | 备注 |
|---|---|---|---|---|---|
| H100 SXM5 | SXM5 | 80 GB HBM3 | 900 GB/s | 3958 | HGX H100 主力 |
| H100 PCIe | PCIe Gen5 | 80 GB HBM3 | 600 GB/s(NVL bridge) | 3026 | 单卡 / 工作站 |
| H100 NVL | 2×PCIe 桥接 | 188 GB HBM3(94×2) | NVLink bridge | 7916 | LLM 推理优化 |
| H20 | SXM5 | 96 GB HBM3 | 900 GB/s | 296 | 中国出口合规 SKU |
H20 是 2023 年美国出口管制后 NVIDIA 给中国市场的特供 —— 算力被砍到 H100 的不到 10%,但保留 96 GB HBM3 + 4 TB/s 带宽 + 完整 NVLink 4,推理友好但训练受限。
Transformer Engine
H100 的”杀手锏”——硬件 + 软件协同:
1 | |
效果:Llama 70B 从 BF16 切到 FP8 训练,速度翻倍,最终精度不掉。
H200(2024,Hopper Refresh)
| 同 H100 | 算力一致 |
| 显存 | 141 GB HBM3e,4.8 TB/s |
| TDP | 700W |
关键贡献:
- 显存从 80 GB → 141 GB,对大模型推理 KV-Cache 至关重要
- HBM3e 第一次商用
- 是 H100 的”中期改款”——架构没变,主要靠 HBM3e 升级
H200 在推理市场(Llama-2 70B、GPT-4 推理)非常受欢迎,因为大显存就是”装得下”。
B100 / B200 / B300(2024-2025,Blackwell)
Blackwell 是 Hopper 的继任架构,2024 GTC 公布。核心设计要点:双 die 单封装(两颗 reticle-limit die 通过 NV-HBI 10 TB/s 互联,对软件呈现为单一 CUDA device、单一 NVLink endpoint)+ 第二代 Transformer Engine(原生 FP4/FP6,配合 OCP MX 标准的 per-block micro-scaling)+ 第五代 NVLink。
| B100 | B200 | B300 | |
|---|---|---|---|
| 制程 | TSMC 4NP | TSMC 4NP | TSMC 4NP |
| 结构 | 双 die(NV-HBI 10 TB/s) | 同 | 同 |
| 显存 | 192 GB HBM3e | 192 GB HBM3e(8 TB/s) | 288 GB HBM3e |
| FP8 dense | 7000 TFLOPS | 9000 TFLOPS | ~10500 TFLOPS |
| FP4 dense | 14000 TFLOPS | 18000 TFLOPS | ~21000 TFLOPS |
| 互联 | NVLink 5(1.8 TB/s) | NVLink 5 | NVLink 5 |
| TDP | 700W | 1000W | ~1400W |
| 形态 | SXM (HGX) | SXM (HGX) | SXM (HGX/NVL) |
| 用途 | 风冷 retrofit | 主流 HGX | 长上下文 / 大模型推理 |
注:throughput 单位 TFLOPS,dense;Blackwell 支持 2:4 structured sparsity,sparse 吞吐再 ×2。B300 / GB300 精确 TDP 与 HBM BW 待 NVIDIA 完整 datasheet 公开。
关键贡献:
- 双 die 设计:第一颗”chiplet GPU”——跨 die L2 一致性由 NV-HBI 维护,对 CUDA 程序透明(单 GPU UUID、单 PCI BDF)
- FP4 / FP6(MX 格式):Tensor Core 第一次支持 4-bit / 6-bit 浮点,per-block micro-scaling(每 32 元素一个 E8M0 共享 scale),遵循 OCP MX 标准
- Transformer Engine v2:自动 cast + scale tracking,对接 Megatron-Core / NeMo / TensorRT-LLM
- 5th gen NVLink:单链路 100 GB/s 双向 × 18 link = 单卡 1.8 TB/s
- 5th gen NVSwitch:72 端口 × 100 GB/s,NVL72 中构成 72 GPU 单一 NVLink 域
- Decompression Engine:硬件加速 Snappy / Deflate / LZ4,针对数据分析与 RAG ingest
- RAS Engine:自检测、预测性故障转移
- Confidential Computing 扩展:从 single-GPU 扩展到 multi-GPU NVLink TEE,整个 NVL72 可作为单一 TEE 域
B200 单卡功耗 1000W,液冷成了标配——风冷扛不住。B100 是为存量风冷数据中心保留的 SKU,性能档次低于 B200。
GB200 / GB300(Grace + Blackwell Superchip)
把 1 颗 Grace CPU 配 2 颗 Blackwell GPU 用 NVLink-C2C 900 GB/s 串起来:
1 | |
GB300 把 GPU 换成 B300:1× Grace + 2× B300 = 576 GB HBM3e / Superchip,FP4 ≈ 42 PFLOPS dense。
NVLink-C2C 让 CPU 内存对 GPU 几乎是”近线 HBM 扩展”——Unified Memory 真正可用、KV cache / embedding table 可放 CPU 内存。
NVL72 整机柜 = 18 计算 tray × 2 GB200 superchip / tray = 36 superchip = 72 GPU + 36 Grace + ~13.5 TB HBM3e + ~17 TB LPDDR5X。下一篇专题讲。
GB200 NVL72 关键规格速查
| 项目 | 数值 |
|---|---|
| GPU | 72× B200(每卡 186 GB HBM3e,8 TB/s) |
| CPU | 36× Grace(每颗 72 Neoverse V2,480 GB LPDDR5X) |
| 总 HBM3e | ~13.5 TB |
| 总 LPDDR5X | ~17 TB |
| NVLink 带宽(柜内) | 1.8 TB/s 单卡,130 TB/s 聚合 |
| NVLink 5 单链路 | 100 GB/s 双向,每卡 18 链路 |
| 整柜功耗 | 120-130 kW(液冷强制) |
| NVLink-C2C(Grace↔GPU) | 900 GB/s(~7× PCIe Gen5) |
| 整柜重量 | ~1.5-1.7 吨 |
| 供电 | 48V DC Bus Bar |
$5M 投入的 GB200 NVL72 按 OCP 2025 峰会 NVIDIA 演示,运行 DeepSeek-R1 三年可产生约 $75M Token 收入——AI 工厂 ROI 论证的核心数字。
Vera Rubin(2026-2027)
NVIDIA 在 GTC 2024 / 2025 公布的下一代——但截至发布前,公开 keynote 之外的细节均属推断,正式规格须以 NVIDIA 后续 datasheet 为准。
| Rubin | |
|---|---|
| 命名来源 | Vera Rubin(暗物质科学家) |
| GPU | Rubin(继承双 die / 多 die 通过 NV-HBI 拼接) |
| CPU | Vera(取代 Grace,NVIDIA 自研 Olympus core,仍 Arm Neoverse 路线) |
| 显存 | HBM4,带宽 ~1.5–2× HBM3e |
| 互联 | NVLink 6(带宽 ≥ 1.8 TB/s 量级) |
| Superchip | VR200 = 1× Vera CPU + 2× Rubin GPU |
| 整机柜 | NVL144(标准版)/ NVL576(Kyber rack) |
待补充:Rubin 量产时间、HBM4 容量与带宽、FP4 算力、NVL576 详细 BOM——以 NVIDIA 正式发布为准。
Rubin Ultra / Kyber rack:目标 NVL576 = 576 GPU 在单一 NVLink 域,单机柜功率显著高于 GB200/GB300 NVL72(>500 kW 量级,需 800V HVDC 数据中心标准)。NVIDIA 推动 800V HVDC 与 OCP / 多家 OEM 合作,取消多层 AC↔DC 转换,效率↑、铜量↓。
NVIDIA 路线图 cadence 已从”两年一代”加速到 “一年一代 + 中期 refresh”。
Vera Rubin NVL144:OCP 2025 首次披露细节
OCP 2025 全球峰会(2025 年 10 月,圣何塞),NVIDIA 副总裁 Ian Buck 正式披露 Vera Rubin NVL144 的核心数字:
| 参数 | NVL144 | 对比 GB300 NVL72 |
|---|---|---|
| GPU 数 | 144 | 72(×2) |
| 综合性能 | 8 EF NVFP4 | 1× 基准 |
| 综合性能提升 | 7.5× GB300 NVL72 | — |
| 内存带宽 | 1.7 PB/s | ~580 TB/s(3×) |
| NVLink 带宽 | 260 TB/s | ~130 TB/s(2×) |
| 散热 | 100% 液冷 | 95% 液冷 |
| 液冷进水温度 | 最高 45°C | ~40°C |
| OCP 兼容 | OCP MGX | OCP MGX |
以上数字为 Preliminary,subject to change。以 NVIDIA 正式 datasheet 为准。
VR200 Superchip(参考路线图推断,非正式公开规格):
- 单 GPU:288 GB HBM4,22 TB/s 带宽,FP4 约 35 PFLOPS dense
- NVLink 6:单卡 3.6 TB/s(NVLink 5 的 2×)
- NVL144 整柜推算:144 卡 → 双向聚合约 260 TB/s bisection
- 整柜功耗:估计 180-200 kW+,仍需高温液冷
NVL144 的 OCP MGX 协同设计——NVIDIA 专门为 NVL144 做了 OCP 贡献:
1 | |
咱看来,NVL144 与其说是”更大的 NVL72”,不如说是”第一个真正把 OCP 开放标准拧进 NVIDIA 旗舰整机柜”的设计——散热、供电、Cable 都走开放规范,让 OEM 可以自行制造。
Feynman(下下代,2028 年以后)
Rubin Ultra 之后的下一代已确认命名为 Feynman(理查德·费曼,量子力学宗师)。目前仅有命名确认,规格一概待 NVIDIA 正式发布。费曼既是物理学家又是计算机先驱,命名意味着 NVIDIA 的野心不止在矩阵乘法。
| Feynman | |
|---|---|
| 命名来源 | Richard Feynman(路径积分/量子计算先驱) |
| GPU | 待公布 |
| 显存 | 推测 HBM4E 或更高 |
| 预期量产 | 2028+ |
为什么”一代翻一倍”做得到
每代算力翻倍主要来自三个地方:
graph LR
M1[制程升级<br/>16nm→7nm→4N] --> P[功率墙下塞更多晶体管]
M2[精度变低<br/>FP32→FP16→FP8→FP4] --> P
M3[Tensor Core 重新设计<br/>稀疏/结构化加速] --> P
P[算力翻倍]
精度降低是大头:
1 | |
但 FP4 不是免费的——只有大模型推理 + 适当 calibration 才能用。训练用 FP8/BF16,推理才大胆 FP4。
单卡功耗的代价
1 | |
每代单卡功耗几乎翻倍——这是为什么数据中心 IT 单机柜功耗从 5kW 涨到 130kW(NVL72)的根因。散热和供电的”基础设施”压力比芯片本身更难解决。
NVIDIA 的护城河不只是 GPU
graph TB
HW[GPU 硬件<br/>Tensor Core + HBM]
CONN[NVLink + NVSwitch<br/>多卡互联]
CUDA[CUDA + cuBLAS + cuDNN]
FRAME[PyTorch / JAX / TF<br/>默认 NVIDIA 后端]
TRT[TensorRT-LLM / Triton<br/>推理引擎]
NEMO[NeMo / NIM / DGX Cloud<br/>软件栈和云服务]
HW --> CONN --> CUDA --> FRAME --> TRT --> NEMO
任何一家想”取代 NVIDIA”的厂家,不只要做出能打的芯片,还要复制这整条 stack——这是为什么 AMD MI300、华为昇腾、各家国产 AI 芯片在硬件上单卡指标接近,但生态远远没追上。
一些查询命令
1 | |
一张代次速查(数据中心 SXM 旗舰,dense throughput)
| 代次 | 量产 | 制程 | BF16 Tensor (dense, TFLOPS) | FP8 Tensor (dense, TFLOPS) | FP4 Tensor (dense, TFLOPS) | 单卡显存 | TDP |
|---|---|---|---|---|---|---|---|
| P100 | 2016 | 16nm | — | — | — | 16 GB HBM2 | 300W |
| V100 | 2017 | 12nm | — (FP16: 125) | — | — | 16/32 GB HBM2 | 300-450W |
| A100 | 2020 | 7nm | 312 | — | — | 40/80 GB HBM2e | 400W |
| H100 | 2022 | 4N | 1979 | 3958 | — | 80 GB HBM3 | 700W |
| H200 | 2024 | 4N | 1979 | 3958 | — | 141 GB HBM3e | 700W |
| H20 | 2024 | 4N | 148 | 296 | — | 96 GB HBM3 | 700W |
| B100 | 2024 | 4NP | ~1800 | 7000 | 14000 | 192 GB HBM3e | 700W |
| B200 | 2025 | 4NP | 2250 | 9000 | 18000 | 192 GB HBM3e | 1000W |
| B300 | 2025-2026 | 4NP | ~2625 | ~10500 | ~21000 | 288 GB HBM3e | ~1400W |
| VR200 (Rubin) | 2026-2027 | 3nm | ~4000 | ~17500 | ~35000 | 288 GB HBM4 | ~2300W |
| Feynman | 2028+ | 待补 | 待补 | 待补 | 待补 | HBM4E+ | 待补 |
注:H100/H200 数字基于 NVIDIA 官方 SXM5 datasheet;B300 / Rubin 待 NVIDIA 完整 datasheet 公开。Sparse 2:4 ×2。
小结
- NVIDIA 数据中心 GPU 一代两年(近年加速到一年)
- V100 引入 Tensor Core,A100 引入 BF16/TF32 + MIG,H100 引入 FP8 + Transformer Engine
- B200 是双 die chiplet + FP4 + 整机柜 NVLink,单卡 1000W
- 算力翻倍来源:制程 + 降精度 + Tensor Core 重设计
- 真正的护城河是 CUDA + 互联 + 框架支持的整条软件栈
下一篇讲 NVLink / NVSwitch / NVL72——多卡之间怎么连成”一颗大 GPU”。
内容深度由贤狼赫萝于 2026-06-15 增补,引用来源:OCP 2025/2026 幻灯片、SemiAnalysis。