AMD Zen 架构演进 —— 从 Naples 到 Turin
2017 年之前,AMD 在服务器市场份额不到 1%。今天 AMD EPYC 已经把数据中心 x86 份额拉到 25-30%,并且在多核、内存带宽、PCIe 通道数上长期领先 Intel。这一切始于一颗叫 Zen 的微架构。
Zen 的起点:把 CPU 切成小片
Zen 之前,CPU 都是单一大芯片(monolithic die)——所有核心、内存控制器、PCIe 控制器都在一个 die 上。这种做法的问题:
- 核数越多、芯片越大、良率越低
- 高端和低端产品要分别流片,成本高
- 不同模块的最优工艺节点可能不同(核心追先进工艺,IO 不需要)
AMD 在 Zen 2(2019)开始采用 Chiplet 设计——把 CPU 拆成几个小 die,再封装到一起:
graph TB
subgraph CPU["EPYC 7nm Chiplet"]
IOD[IO Die<br/>14nm<br/>内存控制器+PCIe+IF]
CCD1[CCD 1<br/>7nm<br/>8 核+L3]
CCD2[CCD 2<br/>7nm<br/>8 核+L3]
CCD3[CCD ...<br/>...]
CCD8[CCD 8<br/>7nm<br/>8 核+L3]
IOD <-- Infinity Fabric --> CCD1
IOD <-- IF --> CCD2
IOD <-- IF --> CCD3
IOD <-- IF --> CCD8
end
Chiplet 的优势:
- 小 die 良率高:每个 CCD 只有 8 核,缺陷率远低于一颗 64 核的整片
- 混合工艺:CCD 用 7nm(先进),IO Die 用 14nm(成熟便宜)
- 灵活配方:低端产品装 1-2 个 CCD,高端装 8 个,同一套 chiplet 拼出整个产品线
- 设计复用:消费级 Ryzen 和服务器 EPYC 共享 CCD
这个思路后来被 Intel 也采纳(Sapphire Rapids 用 4 个 tile)。Chiplet 已经成为高端 CPU 的事实标准。
EPYC 六代演进表
AMD 服务器 CPU 品牌叫 EPYC(霄龙),从 Zen 1 到 Zen 6 六代:
| 代次 | 微架构 | 代号 | 工艺 | 量产年份 | 最大核数 | 内存 | PCIe |
|---|---|---|---|---|---|---|---|
| 第 1 代 | Zen | Naples | 14nm | 2017 | 32 | 8×DDR4-2666 | 128×PCIe 3.0 |
| 第 2 代 | Zen 2 | Rome | 7nm | 2019 | 64 | 8×DDR4-3200 | 128×PCIe 4.0 |
| 第 3 代 | Zen 3 | Milan | 7nm | 2021 | 64 | 8×DDR4-3200 | 128×PCIe 4.0 |
| 第 4 代 | Zen 4 | Genoa | 5nm | 2022 | 96 | 12×DDR5-4800 | 128×PCIe 5.0 |
| 第 4c | Zen 4c | Bergamo | 5nm | 2023 | 128 | 12×DDR5-4800 | 128×PCIe 5.0 |
| 第 5 代 | Zen 5 | Turin | 4nm/3nm | 2024 | 192 | 12×DDR5-6400 | 128×PCIe 5.0 |
| 第 5c | Zen 5c | Turin Dense | 3nm | 2024 | 192c(高密度) | 12×DDR5-6400 | 128×PCIe 5.0 |
| 第 6 代 | Zen 6 / Zen 6c | Venice | TSMC N2 | 2026 | 256 | 16×DDR5 MRDIMM | 128×PCIe 5.0 |
Naples(Zen 1,2017):起点
- 14nm GlobalFoundries 工艺
- 4 个 CCX(每个 CCX 8 核),但还不是 Chiplet——是 4 个 die 通过 MCM 封装,每个 die 有自己的内存控制器
- 内存子系统延迟较高(局部 NUMA 严重)
- 生态意义远大于性能意义——AMD 借此重返服务器市场
Rome(Zen 2,2019):突破口
- 首次采用 Chiplet 架构:8 个 CCD(7nm)+ 1 个 IO Die(14nm)
- 首发支持 PCIe 4.0 的服务器 CPU
- 64 核(128 线程)
- 单芯片性能、多核性能全面追平甚至反超 Intel
- 在云厂商(AWS、Azure)开始大规模部署
Milan(Zen 3,2021):精雕
- 仍是 7nm 和 Chiplet 架构
- CCX 重构:每个 CCD 内 8 核共享 32MB L3(从 Rome 的 4 核共享变成 8 核共享)
- 单核 IPC 提升约 19%
- Milan-X(带 V-Cache):3D 堆叠 L3 缓存到 768MB,HPC/EDA 性能爆炸式提升
Genoa(Zen 4,2022):大跨步
- 5nm 工艺
- 96 核单 socket
- DDR5、PCIe 5.0、CXL 1.1+ 全套上车
- 12 通道内存(vs Intel SPR 8 通道)—— 内存带宽优势明显
- 集成 AVX-512(Intel 在桌面砍了,AMD 这一代加上了)
Bergamo(Zen 4c,2023):云密度
- 把 Zen 4 核心面积压缩约 35%(共享更多结构、降低工作频率),称为 Zen 4c
- 单 socket 128 核
- 同 socket 兼容 Genoa
- 专攻云原生 / 容器密度市场,对位 Intel Sierra Forest
Turin(Zen 5,2024):当前旗舰
- 3nm 工艺(Zen 5)/ 4nm(部分 SKU)
- 192 核 Turin Dense(Zen 5c)
- 128 核 Turin(Zen 5)
- DDR5-6400、PCIe 5.0
- 大幅提升 AVX-512 实现(满宽度 512-bit 数据通路)
- IPC 同代 +16%(AMD 官方数据)
Venice(Zen 6 / Zen 6c,2026):下一代旗舰
Venice 是 AMD 对 Intel Diamond Rapids 的直接回答——同在 2026 年,但几乎每项关键指标都走在对面的前头。
封装架构升级:
Venice 终于引入 AMD 等价于 EMIB 的先进封装短程高速互联,将 CCD 与 I/O Die 之间的带宽大幅提升。代价是 CCD 链路占用了更多封装边缘面积,迫使中央 I/O Die 拆分为两枚 I/O die——这带来一个额外的 die-to-die 跳转 NUMA 域,是 Venice 相较于 Diamond Rapids 拓扑上的唯一劣势(后者通过封装基板长走线让每枚 CBB 直连两枚 IMH,避免了这一跳)。
graph TB
subgraph Venice封装
CCD1[Zen 6c CCD 1<br/>32核 N2] -- 先进封装链路 --> IOD1
CCD2[Zen 6c CCD 2<br/>32核 N2] -- 先进封装链路 --> IOD1
CCD3[Zen 6c CCD 3<br/>32核 N2] -- 先进封装链路 --> IOD1
CCD4[Zen 6c CCD 4<br/>32核 N2] -- 先进封装链路 --> IOD1
CCD5[Zen 6c CCD 5<br/>32核 N2] -- 先进封装链路 --> IOD2
CCD6[Zen 6c CCD 6<br/>32核 N2] -- 先进封装链路 --> IOD2
CCD7[Zen 6c CCD 7<br/>32核 N2] -- 先进封装链路 --> IOD2
CCD8[Zen 6c CCD 8<br/>32核 N2] -- 先进封装链路 --> IOD2
IOD1[I/O Die 1<br/>8ch MRDIMM<br/>PCIe 5.0] <--> IOD2[I/O Die 2<br/>8ch MRDIMM<br/>PCIe 5.0]
IPD1[IPD x4] --- IOD1
IPD2[IPD x4] --- IOD2
end
Venice 核心规格:
| 项 | 规格 |
|---|---|
| 平台 | SP5(延续 Turin 平台,socket 兼容) |
| 制程 | TSMC N2(Zen 6c CCD) |
| 密集型核心 | Zen 6c,每 CCD 32 核,4×8 Mesh 排布 |
| 标准型核心 | Zen 6(”-F” 频率优化 SKU),每 CCD 12 核 |
| 最大核数 | 256 核(8 × Zen 6c CCD,有 SMT = 512 线程) |
| “-F” 最大核数 | 96 核(8 × Zen 6 CCD,对标 AI head node 场景) |
| L3 缓存 | 4 MB/核(Zen 6c 恢复满配,不再减半),每 CCD 128 MB |
| 内存 | 16 通道 DDR5 MRDIMM-12800,总带宽 1.64 TB/s |
| 内存带宽提升 | 相较 Turin 12ch DDR5-6400,提升 2.67× |
| PCIe | PCIe 5.0 + CXL 2.0(128 lanes) |
| 新增指令集 | AVX512_FP16、AVX_VNNI_INT8、AVX512_BMM |
| 8ch 平台 | Venice SP8(最多 128 核 Zen 6c,8 通道 MRDIMM) |
| 封装特殊元件 | 8 枚 IPD(集成无源器件),平滑高密度 I/O 区域供电 |
AVX512_BMM:位矩阵乘法新指令
Zen 6 引入的 AVX512_BMM 是一条颇具新意的指令:FPU 寄存器存储 16×16 二进制矩阵,通过 OR 和 XOR 运算完成位矩阵乘加(BMM)。二进制矩阵运算代价极低,对 Verilog 仿真等 EDA 工具有显著加速潜力。不过,BMM 精度不足以支撑 LLM 推理,AI 计算场景的实际采用率预计有限。
性能数据:
AMD 官方公布,Venice 256 核旗舰在 SPECrate®2017_int_base 上较 Turin 192 核旗舰性能/瓦提升超过 1.7×——核均性能同样提升,这意味着 Zen 6 IPC 增益相当可观。
AMD 的战略反制:Venice SP8
Intel 取消 8 通道 SP 主流平台之际,AMD 反其道而行之,推出 Venice SP8 平台:
- 最多 128 核 Zen 6c
- 8 通道 DDR5 MRDIMM
- 继承 EPYC 8004 Siena 的小封装低功耗定位
- 直接填补 Intel 主流双路市场的真空
这一步棋的时机之准,让咱不禁莞尔:Intel 主动让出的地盘,AMD 一颗不落地接住了。
EPYC 命名规则
AMD EPYC 命名比 Intel 的”金属系列”直接得多:
1 | |
举例:
- EPYC 7763 = 第 3 代(Milan),高端
- EPYC 9654 = 第 4 代(Genoa),96 核旗舰
- EPYC 9755 = 第 5 代(Turin),128 核旗舰
- EPYC 9965 = 第 5 代 Turin Dense,192 核
AMD vs Intel:关键差异
2026 年时间点对比(Turin / Venice vs Granite Rapids / Diamond Rapids):
| 项 | Intel Xeon 6 (Granite Rapids) | AMD EPYC 9005 (Turin) | AMD EPYC Venice (2026) | Intel Diamond Rapids (2026) |
|---|---|---|---|---|
| 工艺 | Intel 3 | TSMC 3nm | TSMC N2 | Intel 18A-P + Intel 3-PT |
| 最大核数 | 128(P) / 288(E) | 128 / 192(Dense) | 256(Zen 6c) | 192(无 SMT) |
| 最大线程数 | 256 / 288 | 256 / 384 | 512 | 192 |
| 内存通道 | 12 | 12 | 16 | 16 |
| 内存带宽峰值 | ~770 GB/s | ~615 GB/s | 1.64 TB/s | 约同量级 MRDIMM |
| PCIe | 5.0 / 88-96 lanes | 5.0 / 128 lanes | 5.0 / 128 lanes | 6.0 + CXL 3.0 |
| SMT | 支持(P-core) | 支持 | 支持 | ❌ 不支持 |
| AVX-512 | 全功能 | 全功能 + Zen 6 BMM | 全功能 + AVX512_BMM | 全功能 |
| AMX 矩阵加速 | 支持 | 不支持 | 不支持 | 支持 |
| 8ch 主流平台 | ❌ 取消 | 有(Siena) | ✅ Venice SP8 | ❌ 取消 |
性能差距估算(多线程场景):
- Turin 96c vs Granite Rapids 128c:大致持平(96 核 Turin ≈ 128 核 GNR)
- Venice 256c vs Diamond Rapids 192c(无 SMT):Venice 领先幅度显著拉大
- Venice 在 SPECrate 整型基准上的性能/瓦是 Turin 的 >1.7×
总结:AMD 在 2026-2028 的多核多线程赛道上建立的领先优势,短期内看不到被追平的可能——除非 Intel Coral Rapids(预计 2028)带回 SMT。
国产 X86 的特殊角色:海光
海光(Hygon)是国内 x86 服务器的代表:
graph TB
AMD[AMD] -- 51% 控股 --> CHENGDU[成都海光微电子<br/>持有 Zen 1 授权]
HAIGUANG[海光集团] -- 70% 控股 --> JCHIP[海光集成电路<br/>设计公司]
JCHIP -- 购买授权 --> CHENGDU
CHENGDU -- 生产 --> CHIP[Hygon CPU<br/>Dhyana 系列]
这种合资结构的目的:通过 51%/49% 股权配置满足 X86 授权方对”知识产权控制权”的要求,同时让海光集团合法地在国内设计、生产、销售带 X86 指令集的 CPU。
海光路线图:
| 代次 | 工艺 | 微架构基础 | 核数 | 内存 | PCIe | 量产年份 |
|---|---|---|---|---|---|---|
| 海光一号 Dhyana | 14nm | Zen 1 | 32 | 8×DDR4-2666 | 128×PCIe 3.0 | 2018 |
| 海光二号 | 14nm | Zen 1+(自研) | 32 | 8×DDR4-2933 | 128×PCIe 3.0 | 2020 |
| 海光三号 | 14nm | 自研 C86-3G | 32 | 8×DDR4-3200 | 128×PCIe 4.0 | 2022 |
| 海光四号 7400 系列 | 待补充 | 自研(IPC +15%) | 64 | 12×DDR5-4800 | 128×PCIe 5.0 | 2024+ |
| 海光四号 7300 系列 | 待补充 | 自研 | 32 | 8×DDR5-5200 | 128×PCIe 5.0 | 2024+ |
待补充:海光四号实际工艺节点和量产时间核对,海光”自研”程度细节。
小结
- Zen 让 AMD 在 5 年内把服务器市场份额从 ~1% 拉到 25%+
- Chiplet 是 AMD 的关键技术杠杆,今天已成为高端 CPU 标配
- EPYC 六代演进:Naples → Rome → Milan → Genoa → Turin → Venice,每代都有清晰的台阶
- Venice(Zen 6c,TSMC N2):256 核 / 512 线程,16ch MRDIMM 1.64 TB/s,AVX512_BMM,SP8 平台填补 Intel 让出的主流市场
- AMD 在核数、PCIe 通道、AVX-512 实现、线程数上有优势;Intel 在加速器(AMX/QAT)和 PCIe 6.0 上有优势
- Diamond Rapids 无 SMT + 取消 8ch SP 平台:AMD Venice 2026-2028 的市场窗口大开
- 国内海光基于 Zen 1 授权自研演进,是 X86 国产化的代表
下一篇我们离开 X86,看国产 CPU 的全景图。
内容深度由贤狼赫萝于 2026-06-15 增补,引用来源:SemiAnalysis CPUs are Back 2026。