HBM —— AI 时代的高带宽内存

GB200 一颗 GPU 配 192 GB 内存、带宽 8 TB/s——这种数字在 DDR 上做不出来。HBM（High Bandwidth Memory）通过 3D 堆叠 + 硅中介互联，把内存做到了”贴 GPU 而生”。本文讲 HBM 的架构、代次和供应链。

为什么 GPU 要 HBM 不要 DDR

一颗 H100 GPU：

算力：FP16 ~2000 TFLOPS
假设每个 FLOP 要从内存读 1 byte（最理想稀疏假设），每秒需要 2 PB 带宽
真实 AI 工作负载：每 FLOP 约 0.3 byte → 600 TB/s

DRAM 现状：

DDR5-6400 单通道 51.2 GB/s
12 通道 = 614 GB/s
想堆到 600 TB/s = 12000 通道——物理上做不到

GPU 必须找一种带宽密度极高的内存方案——这就是 HBM。

HBM 的核心思想：堆叠 + 宽接口

传统 GDDR vs HBM

graph LR
  subgraph GDDR
    G1[GPU<br/>32 个 GDDR 颗粒<br/>每个 32 bit<br/>约 1024 bit 数据宽]
  end
  subgraph HBMfig["HBM"]
    H1[GPU + HBM stack<br/>每 stack 1024 bit<br/>多 stack 可达 5120-8192 bit]
  end

GDDR 接口窄、频率高（24-32 Gbps/pin），HBM 接口超宽、频率低：

	GDDR6	GDDR7	HBM3	HBM3e
单 die 数据宽	32 bit	32 bit	1024 bit	1024 bit
数据率/pin	~16 Gbps	~32 Gbps	~6.4 Gbps	~9.2 Gbps
单 stack 带宽	-	-	819 GB/s	1.18 TB/s
单 stack 容量	1-2 GB	2-3 GB	24 GB	36 GB

HBM 用”超宽 + 中等频率“换”单位面积带宽 × 容量“。

物理结构：3D 堆叠 + 硅中介

┌─────────────────────────────────────────┐
│             GPU 主芯片                    │
│      ┌──┐  ┌──┐  ┌──┐  ┌──┐            │
│      │HBM│  │HBM│  │HBM│  │HBM│  ←  HBM stack │
│      │  │  │  │  │  │  │  │            │
│      │  │  │  │  │  │  │  │            │
│      └──┘  └──┘  └──┘  └──┘            │
└────────────────│────────────────────────┘
                 ▼
━━━━━━━━━━ 硅中介层 (Silicon Interposer) ━━━━━━━━━━
            通过几千条短走线连接
━━━━━━━━━━ 封装基板 (Substrate) ━━━━━━━━━━━━━━━
                       ▼
                   主板焊点

关键技术：

3D 堆叠：4-8 颗 DRAM die 用 TSV（穿硅过孔）垂直互连，看起来像一个”塔”
硅中介层：把 GPU 和 HBM 焊在同一片硅上，几千条短走线让超宽接口成为可能
2.5D 封装：通常说的”2.5D”就是这个——比 PCB 多一层硅中介，但还不算真正的 3D

封装方案：

TSMC CoWoS（Chip on Wafer on Substrate）：业界主流，H100/H200/B100/B200 都用
Intel EMIB：嵌入式硅桥
Samsung I-Cube：三星方案

CoWoS 的产能 = NVIDIA GPU 的产能 = AI 算力的产能——这是当前 AI 供应链最大瓶颈。

HBM 代次速览

代次	量产年	数据率/pin	单 stack 带宽	单 stack 容量
HBM1	2015	1 Gbps	128 GB/s	1 GB（4-Hi）
HBM2	2016	2 Gbps	256 GB/s	4-8 GB
HBM2e	2020	3.2-3.6 Gbps	~460 GB/s	8-16 GB
HBM3	2022	6.4 Gbps	819 GB/s	16-24 GB（8-Hi/12-Hi）
HBM3e	2024	9.2-9.8 Gbps	~1.2 TB/s	24-36 GB（12-Hi）
HBM4	2025-2026	8-9.6 Gbps（接口扩到 2048 bit）	~1.6-2 TB/s	36-48 GB（12-Hi/16-Hi）

HBM4 首发产品：NVIDIA Rubin GPU（2026 下半年），AMD Instinct MI400（2027 预期）。SK 海力士领跑，三星追赶中，美光 HBM4 最快 2027 年量产。

GB200 NVL72 中的 HBM3e 规模：供应链为何如此紧张

GB200 NVL72 机柜（72 颗 Blackwell GPU）的 HBM3e 部署规模：

每颗 B200 GPU：8 × HBM3e stack × 24 GB = 192 GB，带宽 8 TB/s
单台 NVL72 机柜合计：72 × 192 GB = 13,824 GB（约 13.5 TB） HBM3e
单台 NVL72 合计带宽：72 × 8 TB/s = 576 TB/s

单机柜 HBM3e 用量相当于一个小型工厂相当大的月产能——这是 SK 海力士、三星、美光被 NVIDIA 订单锁定到 2026 年底的根因。

HBM4 路线图：接口翻倍 + Base Die 定制化

Broadcom 技术规划中提到，下一代 AI 加速器互联基于 8 颗 HBM4 的配置，理论聚合带宽可达 204.8 Tbps（~25.6 Tbps/stack × 8）。

HBM4 的两大架构变化：

1 2	`HBM3e： 1024 bit 接口 x 9.2 Gbps/pin = 1.18 TB/s/stack HBM4： 2048 bit 接口 x ~8 Gbps/pin = 2.0 TB/s/stack（接口翻倍为主）`

Base Die 可定制化是 HBM4 更重要的变化：AI 芯片厂商可以把控制器、近存计算单元集成到 HBM Base Die 上，减少封装面积和互联延迟。Google、AWS 等 XPU 厂已开始和 HBM 厂商共同设计 Base Die。

HBM3 vs HBM3e

HBM3e 不是新一代，是 HBM3 的”加强版”：

数据率从 6.4 → 9.2 Gbps
12-Hi 堆叠让单 stack 容量从 24 GB → 36 GB
应用：H200（141 GB HBM3e）、B200（192 GB HBM3e）

HBM4 的关键变化

1 2	`HBM3: 1024 bit × 9.2 Gbps = 1.18 TB/s HBM4: 2048 bit × 8-9.6 Gbps = 1.6-2.0 TB/s（接口翻倍）`

接口从 1024 bit 翻倍到 2048 bit——所以频率不用涨太多就能再翻倍带宽。代价是封装更复杂、面积更大。

HBM4 还有一个变化：Base Die 可定制化。客户可以把控制器、加速逻辑做在 HBM 的 Base Die 上——AI 厂商可以”和 HBM 一起买定制 IO”。

HBM 的供应链

全球能量产 HBM 的只有三家：

厂商	当前主力	产能占比（2025 估算）
SK海力士	HBM3e（NVIDIA H200/B200）	~50%
三星	HBM3 / HBM3e（追赶中）	~35%
美光	HBM3e（2024 起小规模量产）	~15%

SK海力士是当前 HBM3e 的领头羊，80% 的 NVIDIA H200/B200 配的是海力士 HBM3e。

待补充：2026 年 HBM4 各厂量产时间和良率情况。

国产 HBM 的现状

HBM 是当前国产半导体最严重的卡脖子点——比 GPU 本身、比先进制程更急迫：

工艺需求：HBM 不一定要 5nm（颗粒本身可以是 1z/1α），但封装需要 CoWoS 级别的 2.5D 能力
三家国际玩家都在韩美，对中国出口管制严格
国内长鑫、长江存储等在 HBM 上仍处于追赶——通常说”落后两代”（即国际 HBM3e 时国内还在 HBM2e）

长鑫（CXMT）2026 年仍在研 HBM2e，量产时间表未公开，预计落后国际主流两代以上。

2026 年 DRAM 供应短缺对 AI 服务器成本的影响

TrendForce 数据（2026 年 2-3 月报告）揭示了一个惊人的现实：

2026 全年 DRAM 市场营收预测：$5,017 亿美元（同比 +226%，从 2025 年的 $1,536 亿飙升）
DDR5 16Gb 合约价 2026 全年均价：$33.12（vs 2025 年初约 $13，涨幅约 +145%）
Graphics/HBM 品类供需 sufficiency：全年均为 -4% 到 -11%（持续缺货）
Server DRAM sufficiency 2026 全年：-2.9%（仍为负，供不应求）

Server DRAM 供需缺口演进（2026F）：
  Nov 2025 报告预测：-12.5%（最悲观）
  Dec 2025 报告预测：-14.7%
  Mar 2026 报告预测：-2.9%（逐步收窄，但全年仍缺）

对 AI 服务器 TCO 的直接影响：

AI head node 成本结构：每 socket 配 512 GB–1 TB DDR5，内存成本已超过 CPU 本身
HBM 供给由三家韩美厂垄断：NVIDIA 等头部客户优先锁量，其他厂商拿货困难
SK 海力士 HBM 出货占行业 50%+，Q4 2025 营业利润率达 69%——溢价有多夸张一目了然
中国 AI 芯片厂商双重压力：HBM 拿不到 + DDR5 服务器内存也在涨价，推高国产 AI 服务器整机成本
SemiAnalysis（2026-03）指出：AI head node 市场中，内存供给紧张程度将超过 CPU 本身，成为 2026 年数据中心扩张的首要瓶颈

国内 AI 芯片厂家（华为昇腾、寒武纪、摩尔线程等）面临的真实问题：自研 GPU 可以、但配 HBM 拿不到。变通方案：

用 GDDR6/7（带宽差几倍）
用 LPDDR5X（容量大但带宽小）
用更多通道的 HBM2/HBM2e（落后两代）
等长鑫 HBM 量产

HBM 在不同芯片上的”挂法”

graph TB
  subgraph H100["NVIDIA H100"]
    GH[H100 die] --- HB1[HBM3 16GB]
    GH --- HB2[HBM3 16GB]
    GH --- HB3[HBM3 16GB]
    GH --- HB4[HBM3 16GB]
    GH --- HB5[HBM3 16GB]
    GH --- HB6[HBM3 16GB]
  end

H100 = 1 颗 GPU + 6 颗 HBM3 stack（96/80GB 版本）。

graph TB
  subgraph B200["NVIDIA B200（双 die）"]
    B1[Blackwell die 0] --- HB1[HBM3e 24GB]
    B1 --- HB2[HBM3e 24GB]
    B1 --- HB3[HBM3e 24GB]
    B1 --- HB4[HBM3e 24GB]
    B2[Blackwell die 1] --- HB5[HBM3e 24GB]
    B2 --- HB6[HBM3e 24GB]
    B2 --- HB7[HBM3e 24GB]
    B2 --- HB8[HBM3e 24GB]
    B1 -.- B2
  end

B200 = 2 颗 die + 8 颗 HBM3e stack = 192GB。

graph TB
  subgraph MI300X["AMD Instinct MI300X"]
    GM[XCD × 8 + IO Die] --- M1[HBM3 24GB]
    GM --- M2[HBM3 24GB]
    GM --- M3[HBM3 24GB]
    GM --- M4[HBM3 24GB]
    GM --- M5[HBM3 24GB]
    GM --- M6[HBM3 24GB]
    GM --- M7[HBM3 24GB]
    GM --- M8[HBM3 24GB]
  end

MI300X = 8 颗 HBM3 = 192GB（与 B200 容量持平，比 H100 多）。

graph LR
  subgraph CPU["Grace CPU"]
    GC[Neoverse V2 × 72] --- LP[LPDDR5X 480GB]
  end
  subgraph GPU["Hopper/Blackwell GPU"]
    GH[GPU] --- HB[HBM3e/4]
  end
  CPU <-- NVLink-C2C 900 GB/s --> GPU

NVIDIA Grace 是个例外——CPU 用 LPDDR5X 而不是 HBM。原因：CPU 工作负载对延迟更敏感，LPDDR5X 在容量、功耗、价格上更平衡。

HBM 不能取代 DDR 的几个原因

带宽这么高，为什么 CPU 不上 HBM？

1. 容量上限

HBM 单 stack 24-36 GB，HBM4 也就 48 GB。一颗 CPU 挂 8 颗 HBM 也才 ~300 GB——服务器要 1-12 TB 内存做不到。

2. 价格

HBM 大约是同容量 DDR5 的 5-10 倍。1TB HBM 几乎是 1TB DDR5 的十倍价。

3. 不可拆换

HBM 是封装在一起的，坏了换不了一颗——整颗 GPU 报废。

4. 延迟差不多

HBM 带宽极高，但延迟和 DDR5 差不多（80-100 ns 量级）。CPU 工作负载延迟敏感，HBM 不一定比 DDR5 快。

5. 功耗高

HBM 单 stack 8-12 W，8 颗 stack 就 60-100 W——CPU 没法给这么多。

Intel Xeon Max（HBM CPU 的尝试）

Intel 在 Sapphire Rapids 时期推过 Xeon Max 9400 系列——CPU 自带 HBM2e。每颗 64GB HBM2e + 56 核。

应用场景：HPC（CFD、气候模拟、量子化学）——这些工作负载内存带宽吃紧。

但 Xeon Max 后续没续作——Granite Rapids 没有 HBM 版本。原因：市场需求不够大、产能优先给 NVIDIA、CPU + HBM 的 TCO 比”CPU + GPU 分工”差。

CXL 会不会替代 HBM

不会，但可以互补：

HBM：贴芯片，超高带宽，小容量
CXL：通过 PCIe 扩展，中等带宽，超大容量
DDR：本地，平衡，主流

未来 GPU 的趋势：HBM 当一级 + CXL 内存当二级 + 主机 DRAM 当三级。NVIDIA Grace+Hopper 的 NVLink-C2C 就是类似思路。

一张总结

graph TB
  L1[CPU 寄存器/Cache<br/>SRAM<br/>~1 ns]
  L2[CPU DRAM<br/>DDR5<br/>80 ns / 50-600 GB/s]
  L3[GPU HBM<br/>HBM3e<br/>~80 ns / 8 TB/s]
  L4[CXL Memory<br/>~200 ns / 数十 GB/s]
  L5[NVMe SSD<br/>~10 μs / 14 GB/s]
  L1 --> L2 --> L3 --> L4 --> L5

HBM 作为 GPU 内存 vs CPU 内存的本质区别

同样是 HBM，在 GPU 和 CPU 上的”使用方式”有根本不同：

维度	GPU + HBM	CPU + HBM（如 Xeon Max）
访问模式	超高并发流式（矩阵乘）	延迟敏感随机访问
延迟容忍	可接受（数千线程掩盖延迟）	不可接受（顺序代码执行）
带宽利用率	接近峰值（>80%）	通常 <40%（局部性差）
容量需求	放模型权重即可（192–288 GB）	需放完整数据集（TB 级）
故障处置	整颗加速器报废	整颗 CPU 报废

这就是 Intel Xeon Max（CPU + HBM2e）没有续作的核心原因：GPU 靠海量并发线程把 HBM 带宽”榨干”，CPU 的顺序访问模式利用率远低于 GPU，HBM 的溢价在 CPU 上找不到对应的性能回报。

Granite Rapids 之后 Intel 放弃 HBM CPU 路线，转而押注 MRDIMM 和 CXL——本质上认可了”CPU 带宽够用，GPU 才是 HBM 天命归宿”这个判断。SemiAnalysis 2026 年报告亦证实：Xeon Max 的市场反应不佳，后续不再有 HBM CPU 产品规划。

小结

HBM 用”超宽 + 中频 + 3D 堆叠”换”单位面积带宽”
当前主流 HBM3e 单 stack 1.2 TB/s × 36 GB，HBM4 上 2 TB/s × 48 GB
三家供应：海力士、三星、美光，海力士最强
HBM 是当前国产 AI 最严重的卡脖子点
HBM 不能取代 DDR5——容量、价格、可换性都不允许
未来内存层级：HBM + DDR + CXL + SSD 多级共存

下一篇讲 CXL——内存解耦时代的关键拼图。

内容深度由贤狼赫萝于 2026-06-15 增补，引用来源：SemiAnalysis CPUs are Back 2026、TrendForce DRAM笔记、Broadcom技术访谈。

03-内存

#HBM #HBM3e #HBM4 #GPU 内存

CXL —— 内存解耦的关键拼图上一篇

持久内存的兴衰 —— NVDIMM 与 Optane 的故事下一篇