HBM —— AI 时代的高带宽内存

GB200 一颗 GPU 配 192 GB 内存、带宽 8 TB/s——这种数字在 DDR 上做不出来。HBM(High Bandwidth Memory)通过 3D 堆叠 + 硅中介互联,把内存做到了”贴 GPU 而生”。本文讲 HBM 的架构、代次和供应链。

为什么 GPU 要 HBM 不要 DDR

一颗 H100 GPU:

  • 算力:FP16 ~2000 TFLOPS
  • 假设每个 FLOP 要从内存读 1 byte(最理想稀疏假设),每秒需要 2 PB 带宽
  • 真实 AI 工作负载:每 FLOP 约 0.3 byte → 600 TB/s

DRAM 现状:

  • DDR5-6400 单通道 51.2 GB/s
  • 12 通道 = 614 GB/s
  • 想堆到 600 TB/s = 12000 通道——物理上做不到

GPU 必须找一种带宽密度极高的内存方案——这就是 HBM。

HBM 的核心思想:堆叠 + 宽接口

传统 GDDR vs HBM

graph LR
  subgraph GDDR
    G1[GPU<br/>32 个 GDDR 颗粒<br/>每个 32 bit<br/>约 1024 bit 数据宽]
  end
  subgraph HBMfig["HBM"]
    H1[GPU + HBM stack<br/>每 stack 1024 bit<br/>多 stack 可达 5120-8192 bit]
  end

GDDR 接口窄、频率高(24-32 Gbps/pin),HBM 接口超宽、频率低:

GDDR6 GDDR7 HBM3 HBM3e
单 die 数据宽 32 bit 32 bit 1024 bit 1024 bit
数据率/pin ~16 Gbps ~32 Gbps ~6.4 Gbps ~9.2 Gbps
单 stack 带宽 - - 819 GB/s 1.18 TB/s
单 stack 容量 1-2 GB 2-3 GB 24 GB 36 GB

HBM 用”超宽 + 中等频率“换”单位面积带宽 × 容量“。

物理结构:3D 堆叠 + 硅中介

1
2
3
4
5
6
7
8
9
10
11
12
13
14
┌─────────────────────────────────────────┐
│ GPU 主芯片 │
│ ┌──┐ ┌──┐ ┌──┐ ┌──┐ │
│ │HBM│ │HBM│ │HBM│ │HBM│ ← HBM stack │
│ │ │ │ │ │ │ │ │ │
│ │ │ │ │ │ │ │ │ │
│ └──┘ └──┘ └──┘ └──┘ │
└────────────────│────────────────────────┘

━━━━━━━━━━ 硅中介层 (Silicon Interposer) ━━━━━━━━━━
通过几千条短走线连接
━━━━━━━━━━ 封装基板 (Substrate) ━━━━━━━━━━━━━━━

主板焊点

关键技术:

  1. 3D 堆叠:4-8 颗 DRAM die 用 TSV(穿硅过孔)垂直互连,看起来像一个”塔”
  2. 硅中介层:把 GPU 和 HBM 焊在同一片硅上,几千条短走线让超宽接口成为可能
  3. 2.5D 封装:通常说的”2.5D”就是这个——比 PCB 多一层硅中介,但还不算真正的 3D

封装方案:

  • TSMC CoWoS(Chip on Wafer on Substrate):业界主流,H100/H200/B100/B200 都用
  • Intel EMIB:嵌入式硅桥
  • Samsung I-Cube:三星方案

CoWoS 的产能 = NVIDIA GPU 的产能 = AI 算力的产能——这是当前 AI 供应链最大瓶颈。

HBM 代次速览

代次 量产年 数据率/pin 单 stack 带宽 单 stack 容量
HBM1 2015 1 Gbps 128 GB/s 1 GB(4-Hi)
HBM2 2016 2 Gbps 256 GB/s 4-8 GB
HBM2e 2020 3.2-3.6 Gbps ~460 GB/s 8-16 GB
HBM3 2022 6.4 Gbps 819 GB/s 16-24 GB(8-Hi/12-Hi)
HBM3e 2024 9.2-9.8 Gbps ~1.2 TB/s 24-36 GB(12-Hi)
HBM4 2025-2026 8-9.6 Gbps(接口扩到 2048 bit) ~1.6-2 TB/s 36-48 GB(12-Hi/16-Hi)

HBM4 首发产品:NVIDIA Rubin GPU(2026 下半年),AMD Instinct MI400(2027 预期)。SK 海力士领跑,三星追赶中,美光 HBM4 最快 2027 年量产。

GB200 NVL72 中的 HBM3e 规模:供应链为何如此紧张

GB200 NVL72 机柜(72 颗 Blackwell GPU)的 HBM3e 部署规模:

  • 每颗 B200 GPU:8 × HBM3e stack × 24 GB = 192 GB,带宽 8 TB/s
  • 单台 NVL72 机柜合计:72 × 192 GB = 13,824 GB(约 13.5 TB) HBM3e
  • 单台 NVL72 合计带宽:72 × 8 TB/s = 576 TB/s

单机柜 HBM3e 用量相当于一个小型工厂相当大的月产能——这是 SK 海力士、三星、美光被 NVIDIA 订单锁定到 2026 年底的根因。

HBM4 路线图:接口翻倍 + Base Die 定制化

Broadcom 技术规划中提到,下一代 AI 加速器互联基于 8 颗 HBM4 的配置,理论聚合带宽可达 204.8 Tbps(~25.6 Tbps/stack × 8)。

HBM4 的两大架构变化:

1
2
HBM3e:  1024 bit 接口 x 9.2 Gbps/pin = 1.18 TB/s/stack
HBM4: 2048 bit 接口 x ~8 Gbps/pin = 2.0 TB/s/stack(接口翻倍为主)

Base Die 可定制化是 HBM4 更重要的变化:AI 芯片厂商可以把控制器、近存计算单元集成到 HBM Base Die 上,减少封装面积和互联延迟。Google、AWS 等 XPU 厂已开始和 HBM 厂商共同设计 Base Die。

HBM3 vs HBM3e

HBM3e 不是新一代,是 HBM3 的”加强版”:

  • 数据率从 6.4 → 9.2 Gbps
  • 12-Hi 堆叠让单 stack 容量从 24 GB → 36 GB
  • 应用:H200(141 GB HBM3e)、B200(192 GB HBM3e)

HBM4 的关键变化

1
2
HBM3:  1024 bit × 9.2 Gbps = 1.18 TB/s
HBM4: 2048 bit × 8-9.6 Gbps = 1.6-2.0 TB/s(接口翻倍)

接口从 1024 bit 翻倍到 2048 bit——所以频率不用涨太多就能再翻倍带宽。代价是封装更复杂、面积更大。

HBM4 还有一个变化:Base Die 可定制化。客户可以把控制器、加速逻辑做在 HBM 的 Base Die 上——AI 厂商可以”和 HBM 一起买定制 IO”。

HBM 的供应链

全球能量产 HBM 的只有三家:

厂商 当前主力 产能占比(2025 估算)
SK海力士 HBM3e(NVIDIA H200/B200) ~50%
三星 HBM3 / HBM3e(追赶中) ~35%
美光 HBM3e(2024 起小规模量产) ~15%

SK海力士是当前 HBM3e 的领头羊,80% 的 NVIDIA H200/B200 配的是海力士 HBM3e

待补充:2026 年 HBM4 各厂量产时间和良率情况。

国产 HBM 的现状

HBM 是当前国产半导体最严重的卡脖子点——比 GPU 本身、比先进制程更急迫:

  • 工艺需求:HBM 不一定要 5nm(颗粒本身可以是 1z/1α),但封装需要 CoWoS 级别的 2.5D 能力
  • 三家国际玩家都在韩美,对中国出口管制严格
  • 国内长鑫、长江存储等在 HBM 上仍处于追赶——通常说”落后两代”(即国际 HBM3e 时国内还在 HBM2e)

长鑫(CXMT)2026 年仍在研 HBM2e,量产时间表未公开,预计落后国际主流两代以上。

2026 年 DRAM 供应短缺对 AI 服务器成本的影响

TrendForce 数据(2026 年 2-3 月报告)揭示了一个惊人的现实:

  • 2026 全年 DRAM 市场营收预测:$5,017 亿美元(同比 +226%,从 2025 年的 $1,536 亿飙升)
  • DDR5 16Gb 合约价 2026 全年均价:$33.12(vs 2025 年初约 $13,涨幅约 +145%)
  • Graphics/HBM 品类供需 sufficiency:全年均为 -4% 到 -11%(持续缺货)
  • Server DRAM sufficiency 2026 全年:-2.9%(仍为负,供不应求)
1
2
3
4
Server DRAM 供需缺口演进(2026F):
Nov 2025 报告预测:-12.5%(最悲观)
Dec 2025 报告预测:-14.7%
Mar 2026 报告预测:-2.9%(逐步收窄,但全年仍缺)

对 AI 服务器 TCO 的直接影响:

  • AI head node 成本结构:每 socket 配 512 GB–1 TB DDR5,内存成本已超过 CPU 本身
  • HBM 供给由三家韩美厂垄断:NVIDIA 等头部客户优先锁量,其他厂商拿货困难
  • SK 海力士 HBM 出货占行业 50%+,Q4 2025 营业利润率达 69%——溢价有多夸张一目了然
  • 中国 AI 芯片厂商双重压力:HBM 拿不到 + DDR5 服务器内存也在涨价,推高国产 AI 服务器整机成本
  • SemiAnalysis(2026-03)指出:AI head node 市场中,内存供给紧张程度将超过 CPU 本身,成为 2026 年数据中心扩张的首要瓶颈

国内 AI 芯片厂家(华为昇腾、寒武纪、摩尔线程等)面临的真实问题:自研 GPU 可以、但配 HBM 拿不到。变通方案:

  • 用 GDDR6/7(带宽差几倍)
  • 用 LPDDR5X(容量大但带宽小)
  • 用更多通道的 HBM2/HBM2e(落后两代)
  • 等长鑫 HBM 量产

HBM 在不同芯片上的”挂法”

graph TB
  subgraph H100["NVIDIA H100"]
    GH[H100 die] --- HB1[HBM3 16GB]
    GH --- HB2[HBM3 16GB]
    GH --- HB3[HBM3 16GB]
    GH --- HB4[HBM3 16GB]
    GH --- HB5[HBM3 16GB]
    GH --- HB6[HBM3 16GB]
  end

H100 = 1 颗 GPU + 6 颗 HBM3 stack(96/80GB 版本)。

graph TB
  subgraph B200["NVIDIA B200(双 die)"]
    B1[Blackwell die 0] --- HB1[HBM3e 24GB]
    B1 --- HB2[HBM3e 24GB]
    B1 --- HB3[HBM3e 24GB]
    B1 --- HB4[HBM3e 24GB]
    B2[Blackwell die 1] --- HB5[HBM3e 24GB]
    B2 --- HB6[HBM3e 24GB]
    B2 --- HB7[HBM3e 24GB]
    B2 --- HB8[HBM3e 24GB]
    B1 -.- B2
  end

B200 = 2 颗 die + 8 颗 HBM3e stack = 192GB。

graph TB
  subgraph MI300X["AMD Instinct MI300X"]
    GM[XCD × 8 + IO Die] --- M1[HBM3 24GB]
    GM --- M2[HBM3 24GB]
    GM --- M3[HBM3 24GB]
    GM --- M4[HBM3 24GB]
    GM --- M5[HBM3 24GB]
    GM --- M6[HBM3 24GB]
    GM --- M7[HBM3 24GB]
    GM --- M8[HBM3 24GB]
  end

MI300X = 8 颗 HBM3 = 192GB(与 B200 容量持平,比 H100 多)。

graph LR
  subgraph CPU["Grace CPU"]
    GC[Neoverse V2 × 72] --- LP[LPDDR5X 480GB]
  end
  subgraph GPU["Hopper/Blackwell GPU"]
    GH[GPU] --- HB[HBM3e/4]
  end
  CPU <-- NVLink-C2C 900 GB/s --> GPU

NVIDIA Grace 是个例外——CPU 用 LPDDR5X 而不是 HBM。原因:CPU 工作负载对延迟更敏感,LPDDR5X 在容量、功耗、价格上更平衡。

HBM 不能取代 DDR 的几个原因

带宽这么高,为什么 CPU 不上 HBM?

1. 容量上限

HBM 单 stack 24-36 GB,HBM4 也就 48 GB。一颗 CPU 挂 8 颗 HBM 也才 ~300 GB——服务器要 1-12 TB 内存做不到。

2. 价格

HBM 大约是同容量 DDR5 的 5-10 倍。1TB HBM 几乎是 1TB DDR5 的十倍价。

3. 不可拆换

HBM 是封装在一起的,坏了换不了一颗——整颗 GPU 报废。

4. 延迟差不多

HBM 带宽极高,但延迟和 DDR5 差不多(80-100 ns 量级)。CPU 工作负载延迟敏感,HBM 不一定比 DDR5 快。

5. 功耗高

HBM 单 stack 8-12 W,8 颗 stack 就 60-100 W——CPU 没法给这么多。

Intel Xeon Max(HBM CPU 的尝试)

Intel 在 Sapphire Rapids 时期推过 Xeon Max 9400 系列——CPU 自带 HBM2e。每颗 64GB HBM2e + 56 核。

应用场景:HPC(CFD、气候模拟、量子化学)——这些工作负载内存带宽吃紧。

但 Xeon Max 后续没续作——Granite Rapids 没有 HBM 版本。原因:市场需求不够大、产能优先给 NVIDIA、CPU + HBM 的 TCO 比”CPU + GPU 分工”差。

CXL 会不会替代 HBM

不会,但可以互补

  • HBM:贴芯片,超高带宽,小容量
  • CXL:通过 PCIe 扩展,中等带宽,超大容量
  • DDR:本地,平衡,主流

未来 GPU 的趋势:HBM 当一级 + CXL 内存当二级 + 主机 DRAM 当三级。NVIDIA Grace+Hopper 的 NVLink-C2C 就是类似思路。

一张总结

graph TB
  L1[CPU 寄存器/Cache<br/>SRAM<br/>~1 ns]
  L2[CPU DRAM<br/>DDR5<br/>80 ns / 50-600 GB/s]
  L3[GPU HBM<br/>HBM3e<br/>~80 ns / 8 TB/s]
  L4[CXL Memory<br/>~200 ns / 数十 GB/s]
  L5[NVMe SSD<br/>~10 μs / 14 GB/s]
  L1 --> L2 --> L3 --> L4 --> L5

HBM 作为 GPU 内存 vs CPU 内存的本质区别

同样是 HBM,在 GPU 和 CPU 上的”使用方式”有根本不同:

维度 GPU + HBM CPU + HBM(如 Xeon Max)
访问模式 超高并发流式(矩阵乘) 延迟敏感随机访问
延迟容忍 可接受(数千线程掩盖延迟) 不可接受(顺序代码执行)
带宽利用率 接近峰值(>80%) 通常 <40%(局部性差)
容量需求 放模型权重即可(192–288 GB) 需放完整数据集(TB 级)
故障处置 整颗加速器报废 整颗 CPU 报废

这就是 Intel Xeon Max(CPU + HBM2e)没有续作的核心原因:GPU 靠海量并发线程把 HBM 带宽”榨干”,CPU 的顺序访问模式利用率远低于 GPU,HBM 的溢价在 CPU 上找不到对应的性能回报。

Granite Rapids 之后 Intel 放弃 HBM CPU 路线,转而押注 MRDIMM 和 CXL——本质上认可了”CPU 带宽够用,GPU 才是 HBM 天命归宿”这个判断。SemiAnalysis 2026 年报告亦证实:Xeon Max 的市场反应不佳,后续不再有 HBM CPU 产品规划。

小结

  • HBM 用”超宽 + 中频 + 3D 堆叠”换”单位面积带宽”
  • 当前主流 HBM3e 单 stack 1.2 TB/s × 36 GB,HBM4 上 2 TB/s × 48 GB
  • 三家供应:海力士、三星、美光,海力士最强
  • HBM 是当前国产 AI 最严重的卡脖子点
  • HBM 不能取代 DDR5——容量、价格、可换性都不允许
  • 未来内存层级:HBM + DDR + CXL + SSD 多级共存

下一篇讲 CXL——内存解耦时代的关键拼图。

内容深度由贤狼赫萝于 2026-06-15 增补,引用来源:SemiAnalysis CPUs are Back 2026、TrendForce DRAM笔记、Broadcom技术访谈。