AMD Zen 架构演进 —— 从 Naples 到 Turin

2017 年之前，AMD 在服务器市场份额不到 1%。今天 AMD EPYC 已经把数据中心 x86 份额拉到 25-30%，并且在多核、内存带宽、PCIe 通道数上长期领先 Intel。这一切始于一颗叫 Zen 的微架构。

Zen 的起点：把 CPU 切成小片

Zen 之前，CPU 都是单一大芯片（monolithic die）——所有核心、内存控制器、PCIe 控制器都在一个 die 上。这种做法的问题：

核数越多、芯片越大、良率越低
高端和低端产品要分别流片，成本高
不同模块的最优工艺节点可能不同（核心追先进工艺，IO 不需要）

AMD 在 Zen 2（2019）开始采用 Chiplet 设计——把 CPU 拆成几个小 die，再封装到一起：

graph TB
  subgraph CPU["EPYC 7nm Chiplet"]
    IOD[IO Die<br/>14nm<br/>内存控制器+PCIe+IF]
    CCD1[CCD 1<br/>7nm<br/>8 核+L3]
    CCD2[CCD 2<br/>7nm<br/>8 核+L3]
    CCD3[CCD ...<br/>...]
    CCD8[CCD 8<br/>7nm<br/>8 核+L3]
    IOD <-- Infinity Fabric --> CCD1
    IOD <-- IF --> CCD2
    IOD <-- IF --> CCD3
    IOD <-- IF --> CCD8
  end

Chiplet 的优势：

小 die 良率高：每个 CCD 只有 8 核，缺陷率远低于一颗 64 核的整片
混合工艺：CCD 用 7nm（先进），IO Die 用 14nm（成熟便宜）
灵活配方：低端产品装 1-2 个 CCD，高端装 8 个，同一套 chiplet 拼出整个产品线
设计复用：消费级 Ryzen 和服务器 EPYC 共享 CCD

这个思路后来被 Intel 也采纳（Sapphire Rapids 用 4 个 tile）。Chiplet 已经成为高端 CPU 的事实标准。

EPYC 六代演进表

AMD 服务器 CPU 品牌叫 EPYC（霄龙），从 Zen 1 到 Zen 6 六代：

代次	微架构	代号	工艺	量产年份	最大核数	内存	PCIe
第 1 代	Zen	Naples	14nm	2017	32	8×DDR4-2666	128×PCIe 3.0
第 2 代	Zen 2	Rome	7nm	2019	64	8×DDR4-3200	128×PCIe 4.0
第 3 代	Zen 3	Milan	7nm	2021	64	8×DDR4-3200	128×PCIe 4.0
第 4 代	Zen 4	Genoa	5nm	2022	96	12×DDR5-4800	128×PCIe 5.0
第 4c	Zen 4c	Bergamo	5nm	2023	128	12×DDR5-4800	128×PCIe 5.0
第 5 代	Zen 5	Turin	4nm/3nm	2024	192	12×DDR5-6400	128×PCIe 5.0
第 5c	Zen 5c	Turin Dense	3nm	2024	192c（高密度）	12×DDR5-6400	128×PCIe 5.0
第 6 代	Zen 6 / Zen 6c	Venice	TSMC N2	2026	256	16×DDR5 MRDIMM	128×PCIe 5.0

Naples（Zen 1，2017）：起点

14nm GlobalFoundries 工艺
4 个 CCX（每个 CCX 8 核），但还不是 Chiplet——是 4 个 die 通过 MCM 封装，每个 die 有自己的内存控制器
内存子系统延迟较高（局部 NUMA 严重）
生态意义远大于性能意义——AMD 借此重返服务器市场

Rome（Zen 2，2019）：突破口

首次采用 Chiplet 架构：8 个 CCD（7nm）+ 1 个 IO Die（14nm）
首发支持 PCIe 4.0 的服务器 CPU
64 核（128 线程）
单芯片性能、多核性能全面追平甚至反超 Intel
在云厂商（AWS、Azure）开始大规模部署

Milan（Zen 3，2021）：精雕

仍是 7nm 和 Chiplet 架构
CCX 重构：每个 CCD 内 8 核共享 32MB L3（从 Rome 的 4 核共享变成 8 核共享）
单核 IPC 提升约 19%
Milan-X（带 V-Cache）：3D 堆叠 L3 缓存到 768MB，HPC/EDA 性能爆炸式提升

Genoa（Zen 4，2022）：大跨步

5nm 工艺
96 核单 socket
DDR5、PCIe 5.0、CXL 1.1+ 全套上车
12 通道内存（vs Intel SPR 8 通道）—— 内存带宽优势明显
集成 AVX-512（Intel 在桌面砍了，AMD 这一代加上了）

Bergamo（Zen 4c，2023）：云密度

把 Zen 4 核心面积压缩约 35%（共享更多结构、降低工作频率），称为 Zen 4c
单 socket 128 核
同 socket 兼容 Genoa
专攻云原生 / 容器密度市场，对位 Intel Sierra Forest

Turin（Zen 5，2024）：当前旗舰

3nm 工艺（Zen 5）/ 4nm（部分 SKU）
192 核 Turin Dense（Zen 5c）
128 核 Turin（Zen 5）
DDR5-6400、PCIe 5.0
大幅提升 AVX-512 实现（满宽度 512-bit 数据通路）
IPC 同代 +16%（AMD 官方数据）

Venice（Zen 6 / Zen 6c，2026）：下一代旗舰

Venice 是 AMD 对 Intel Diamond Rapids 的直接回答——同在 2026 年，但几乎每项关键指标都走在对面的前头。

封装架构升级：

Venice 终于引入 AMD 等价于 EMIB 的先进封装短程高速互联，将 CCD 与 I/O Die 之间的带宽大幅提升。代价是 CCD 链路占用了更多封装边缘面积，迫使中央 I/O Die 拆分为两枚 I/O die——这带来一个额外的 die-to-die 跳转 NUMA 域，是 Venice 相较于 Diamond Rapids 拓扑上的唯一劣势（后者通过封装基板长走线让每枚 CBB 直连两枚 IMH，避免了这一跳）。

graph TB
  subgraph Venice封装
    CCD1[Zen 6c CCD 1<br/>32核 N2] -- 先进封装链路 --> IOD1
    CCD2[Zen 6c CCD 2<br/>32核 N2] -- 先进封装链路 --> IOD1
    CCD3[Zen 6c CCD 3<br/>32核 N2] -- 先进封装链路 --> IOD1
    CCD4[Zen 6c CCD 4<br/>32核 N2] -- 先进封装链路 --> IOD1
    CCD5[Zen 6c CCD 5<br/>32核 N2] -- 先进封装链路 --> IOD2
    CCD6[Zen 6c CCD 6<br/>32核 N2] -- 先进封装链路 --> IOD2
    CCD7[Zen 6c CCD 7<br/>32核 N2] -- 先进封装链路 --> IOD2
    CCD8[Zen 6c CCD 8<br/>32核 N2] -- 先进封装链路 --> IOD2
    IOD1[I/O Die 1<br/>8ch MRDIMM<br/>PCIe 5.0] <--> IOD2[I/O Die 2<br/>8ch MRDIMM<br/>PCIe 5.0]
    IPD1[IPD x4] --- IOD1
    IPD2[IPD x4] --- IOD2
  end

Venice 核心规格：

项	规格
平台	SP5（延续 Turin 平台，socket 兼容）
制程	TSMC N2（Zen 6c CCD）
密集型核心	Zen 6c，每 CCD 32 核，4×8 Mesh 排布
标准型核心	Zen 6（”-F” 频率优化 SKU），每 CCD 12 核
最大核数	256 核（8 × Zen 6c CCD，有 SMT = 512 线程）
“-F” 最大核数	96 核（8 × Zen 6 CCD，对标 AI head node 场景）
L3 缓存	4 MB/核（Zen 6c 恢复满配，不再减半），每 CCD 128 MB
内存	16 通道 DDR5 MRDIMM-12800，总带宽 1.64 TB/s
内存带宽提升	相较 Turin 12ch DDR5-6400，提升 2.67×
PCIe	PCIe 5.0 + CXL 2.0（128 lanes）
新增指令集	AVX512_FP16、AVX_VNNI_INT8、AVX512_BMM
8ch 平台	Venice SP8（最多 128 核 Zen 6c，8 通道 MRDIMM）
封装特殊元件	8 枚 IPD（集成无源器件），平滑高密度 I/O 区域供电

AVX512_BMM：位矩阵乘法新指令

Zen 6 引入的 AVX512_BMM 是一条颇具新意的指令：FPU 寄存器存储 16×16 二进制矩阵，通过 OR 和 XOR 运算完成位矩阵乘加（BMM）。二进制矩阵运算代价极低，对 Verilog 仿真等 EDA 工具有显著加速潜力。不过，BMM 精度不足以支撑 LLM 推理，AI 计算场景的实际采用率预计有限。

性能数据：

AMD 官方公布，Venice 256 核旗舰在 SPECrate®2017_int_base 上较 Turin 192 核旗舰性能/瓦提升超过 1.7×——核均性能同样提升，这意味着 Zen 6 IPC 增益相当可观。

AMD 的战略反制：Venice SP8

Intel 取消 8 通道 SP 主流平台之际，AMD 反其道而行之，推出 Venice SP8 平台：

最多 128 核 Zen 6c
8 通道 DDR5 MRDIMM
继承 EPYC 8004 Siena 的小封装低功耗定位
直接填补 Intel 主流双路市场的真空

这一步棋的时机之准，让咱不禁莞尔：Intel 主动让出的地盘，AMD 一颗不落地接住了。

EPYC 命名规则

AMD EPYC 命名比 Intel 的”金属系列”直接得多：

EPYC 9 5 5 4 P
     │ │ │ │ │
     │ │ │ │ └── P = 仅限单路（无字母 = 双路均可）
     │ │ │ └──── 性能档位（核数/频率梯度，越大越强）
     │ │ └────── 系列代码
     │ └──────── 代次：1=Naples, 2=Rome, 3=Milan, 4=Genoa, 5=Turin, 6=Venice
     └────────── 系列：9 = 服务器 EPYC

举例：

EPYC 7763 = 第 3 代（Milan），高端
EPYC 9654 = 第 4 代（Genoa），96 核旗舰
EPYC 9755 = 第 5 代（Turin），128 核旗舰
EPYC 9965 = 第 5 代 Turin Dense，192 核

AMD vs Intel：关键差异

2026 年时间点对比（Turin / Venice vs Granite Rapids / Diamond Rapids）：

项	Intel Xeon 6 (Granite Rapids)	AMD EPYC 9005 (Turin)	AMD EPYC Venice (2026)	Intel Diamond Rapids (2026)
工艺	Intel 3	TSMC 3nm	TSMC N2	Intel 18A-P + Intel 3-PT
最大核数	128（P） / 288（E）	128 / 192（Dense）	256（Zen 6c）	192（无 SMT）
最大线程数	256 / 288	256 / 384	512	192
内存通道	12	12	16	16
内存带宽峰值	~770 GB/s	~615 GB/s	1.64 TB/s	约同量级 MRDIMM
PCIe	5.0 / 88-96 lanes	5.0 / 128 lanes	5.0 / 128 lanes	6.0 + CXL 3.0
SMT	支持（P-core）	支持	支持	❌ 不支持
AVX-512	全功能	全功能 + Zen 6 BMM	全功能 + AVX512_BMM	全功能
AMX 矩阵加速	支持	不支持	不支持	支持
8ch 主流平台	❌ 取消	有（Siena）	✅ Venice SP8	❌ 取消

性能差距估算（多线程场景）：

Turin 96c vs Granite Rapids 128c：大致持平（96 核 Turin ≈ 128 核 GNR）
Venice 256c vs Diamond Rapids 192c（无 SMT）：Venice 领先幅度显著拉大
Venice 在 SPECrate 整型基准上的性能/瓦是 Turin 的 >1.7×

总结：AMD 在 2026-2028 的多核多线程赛道上建立的领先优势，短期内看不到被追平的可能——除非 Intel Coral Rapids（预计 2028）带回 SMT。

国产 X86 的特殊角色：海光

海光（Hygon）是国内 x86 服务器的代表：

graph TB
  AMD[AMD] -- 51% 控股 --> CHENGDU[成都海光微电子<br/>持有 Zen 1 授权]
  HAIGUANG[海光集团] -- 70% 控股 --> JCHIP[海光集成电路<br/>设计公司]
  JCHIP -- 购买授权 --> CHENGDU
  CHENGDU -- 生产 --> CHIP[Hygon CPU<br/>Dhyana 系列]

这种合资结构的目的：通过 51%/49% 股权配置满足 X86 授权方对”知识产权控制权”的要求，同时让海光集团合法地在国内设计、生产、销售带 X86 指令集的 CPU。

海光路线图：

代次	工艺	微架构基础	核数	内存	PCIe	量产年份
海光一号 Dhyana	14nm	Zen 1	32	8×DDR4-2666	128×PCIe 3.0	2018
海光二号	14nm	Zen 1+（自研）	32	8×DDR4-2933	128×PCIe 3.0	2020
海光三号	14nm	自研 C86-3G	32	8×DDR4-3200	128×PCIe 4.0	2022
海光四号 7400 系列	待补充	自研（IPC +15%）	64	12×DDR5-4800	128×PCIe 5.0	2024+
海光四号 7300 系列	待补充	自研	32	8×DDR5-5200	128×PCIe 5.0	2024+

待补充：海光四号实际工艺节点和量产时间核对，海光”自研”程度细节。

小结

Zen 让 AMD 在 5 年内把服务器市场份额从 ~1% 拉到 25%+
Chiplet 是 AMD 的关键技术杠杆，今天已成为高端 CPU 标配
EPYC 六代演进：Naples → Rome → Milan → Genoa → Turin → Venice，每代都有清晰的台阶
Venice（Zen 6c，TSMC N2）：256 核 / 512 线程，16ch MRDIMM 1.64 TB/s，AVX512_BMM，SP8 平台填补 Intel 让出的主流市场
AMD 在核数、PCIe 通道、AVX-512 实现、线程数上有优势；Intel 在加速器（AMX/QAT）和 PCIe 6.0 上有优势
Diamond Rapids 无 SMT + 取消 8ch SP 平台：AMD Venice 2026-2028 的市场窗口大开
国内海光基于 Zen 1 授权自研演进，是 X86 国产化的代表

下一篇我们离开 X86，看国产 CPU 的全景图。

内容深度由贤狼赫萝于 2026-06-15 增补，引用来源：SemiAnalysis CPUs are Back 2026。

02-CPU

#AMD #EPYC #Zen #Chiplet

国产服务器 CPU 全景 —— 鲲鹏、飞腾、龙芯、海光、兆芯、申威上一篇

Intel X86 路线图 —— 从 Tick-Tock 到 Granite Rapids 下一篇