AMD Zen 架构演进 —— 从 Naples 到 Turin

2017 年之前,AMD 在服务器市场份额不到 1%。今天 AMD EPYC 已经把数据中心 x86 份额拉到 25-30%,并且在多核、内存带宽、PCIe 通道数上长期领先 Intel。这一切始于一颗叫 Zen 的微架构。

Zen 的起点:把 CPU 切成小片

Zen 之前,CPU 都是单一大芯片(monolithic die)——所有核心、内存控制器、PCIe 控制器都在一个 die 上。这种做法的问题:

  • 核数越多、芯片越大、良率越低
  • 高端和低端产品要分别流片,成本高
  • 不同模块的最优工艺节点可能不同(核心追先进工艺,IO 不需要)

AMD 在 Zen 2(2019)开始采用 Chiplet 设计——把 CPU 拆成几个小 die,再封装到一起:

graph TB
  subgraph CPU["EPYC 7nm Chiplet"]
    IOD[IO Die<br/>14nm<br/>内存控制器+PCIe+IF]
    CCD1[CCD 1<br/>7nm<br/>8 核+L3]
    CCD2[CCD 2<br/>7nm<br/>8 核+L3]
    CCD3[CCD ...<br/>...]
    CCD8[CCD 8<br/>7nm<br/>8 核+L3]
    IOD <-- Infinity Fabric --> CCD1
    IOD <-- IF --> CCD2
    IOD <-- IF --> CCD3
    IOD <-- IF --> CCD8
  end

Chiplet 的优势:

  • 小 die 良率高:每个 CCD 只有 8 核,缺陷率远低于一颗 64 核的整片
  • 混合工艺:CCD 用 7nm(先进),IO Die 用 14nm(成熟便宜)
  • 灵活配方:低端产品装 1-2 个 CCD,高端装 8 个,同一套 chiplet 拼出整个产品线
  • 设计复用:消费级 Ryzen 和服务器 EPYC 共享 CCD

这个思路后来被 Intel 也采纳(Sapphire Rapids 用 4 个 tile)。Chiplet 已经成为高端 CPU 的事实标准

EPYC 六代演进表

AMD 服务器 CPU 品牌叫 EPYC(霄龙),从 Zen 1 到 Zen 6 六代:

代次 微架构 代号 工艺 量产年份 最大核数 内存 PCIe
第 1 代 Zen Naples 14nm 2017 32 8×DDR4-2666 128×PCIe 3.0
第 2 代 Zen 2 Rome 7nm 2019 64 8×DDR4-3200 128×PCIe 4.0
第 3 代 Zen 3 Milan 7nm 2021 64 8×DDR4-3200 128×PCIe 4.0
第 4 代 Zen 4 Genoa 5nm 2022 96 12×DDR5-4800 128×PCIe 5.0
第 4c Zen 4c Bergamo 5nm 2023 128 12×DDR5-4800 128×PCIe 5.0
第 5 代 Zen 5 Turin 4nm/3nm 2024 192 12×DDR5-6400 128×PCIe 5.0
第 5c Zen 5c Turin Dense 3nm 2024 192c(高密度) 12×DDR5-6400 128×PCIe 5.0
第 6 代 Zen 6 / Zen 6c Venice TSMC N2 2026 256 16×DDR5 MRDIMM 128×PCIe 5.0

Naples(Zen 1,2017):起点

  • 14nm GlobalFoundries 工艺
  • 4 个 CCX(每个 CCX 8 核),但还不是 Chiplet——是 4 个 die 通过 MCM 封装,每个 die 有自己的内存控制器
  • 内存子系统延迟较高(局部 NUMA 严重)
  • 生态意义远大于性能意义——AMD 借此重返服务器市场

Rome(Zen 2,2019):突破口

  • 首次采用 Chiplet 架构:8 个 CCD(7nm)+ 1 个 IO Die(14nm)
  • 首发支持 PCIe 4.0 的服务器 CPU
  • 64 核(128 线程)
  • 单芯片性能、多核性能全面追平甚至反超 Intel
  • 在云厂商(AWS、Azure)开始大规模部署

Milan(Zen 3,2021):精雕

  • 仍是 7nm 和 Chiplet 架构
  • CCX 重构:每个 CCD 内 8 核共享 32MB L3(从 Rome 的 4 核共享变成 8 核共享)
  • 单核 IPC 提升约 19%
  • Milan-X(带 V-Cache):3D 堆叠 L3 缓存到 768MB,HPC/EDA 性能爆炸式提升

Genoa(Zen 4,2022):大跨步

  • 5nm 工艺
  • 96 核单 socket
  • DDR5、PCIe 5.0、CXL 1.1+ 全套上车
  • 12 通道内存(vs Intel SPR 8 通道)—— 内存带宽优势明显
  • 集成 AVX-512(Intel 在桌面砍了,AMD 这一代加上了)

Bergamo(Zen 4c,2023):云密度

  • 把 Zen 4 核心面积压缩约 35%(共享更多结构、降低工作频率),称为 Zen 4c
  • 单 socket 128 核
  • 同 socket 兼容 Genoa
  • 专攻云原生 / 容器密度市场,对位 Intel Sierra Forest

Turin(Zen 5,2024):当前旗舰

  • 3nm 工艺(Zen 5)/ 4nm(部分 SKU)
  • 192 核 Turin Dense(Zen 5c)
  • 128 核 Turin(Zen 5)
  • DDR5-6400、PCIe 5.0
  • 大幅提升 AVX-512 实现(满宽度 512-bit 数据通路)
  • IPC 同代 +16%(AMD 官方数据)

Venice(Zen 6 / Zen 6c,2026):下一代旗舰

Venice 是 AMD 对 Intel Diamond Rapids 的直接回答——同在 2026 年,但几乎每项关键指标都走在对面的前头。

封装架构升级

Venice 终于引入 AMD 等价于 EMIB 的先进封装短程高速互联,将 CCD 与 I/O Die 之间的带宽大幅提升。代价是 CCD 链路占用了更多封装边缘面积,迫使中央 I/O Die 拆分为两枚 I/O die——这带来一个额外的 die-to-die 跳转 NUMA 域,是 Venice 相较于 Diamond Rapids 拓扑上的唯一劣势(后者通过封装基板长走线让每枚 CBB 直连两枚 IMH,避免了这一跳)。

graph TB
  subgraph Venice封装
    CCD1[Zen 6c CCD 1<br/>32核 N2] -- 先进封装链路 --> IOD1
    CCD2[Zen 6c CCD 2<br/>32核 N2] -- 先进封装链路 --> IOD1
    CCD3[Zen 6c CCD 3<br/>32核 N2] -- 先进封装链路 --> IOD1
    CCD4[Zen 6c CCD 4<br/>32核 N2] -- 先进封装链路 --> IOD1
    CCD5[Zen 6c CCD 5<br/>32核 N2] -- 先进封装链路 --> IOD2
    CCD6[Zen 6c CCD 6<br/>32核 N2] -- 先进封装链路 --> IOD2
    CCD7[Zen 6c CCD 7<br/>32核 N2] -- 先进封装链路 --> IOD2
    CCD8[Zen 6c CCD 8<br/>32核 N2] -- 先进封装链路 --> IOD2
    IOD1[I/O Die 1<br/>8ch MRDIMM<br/>PCIe 5.0] <--> IOD2[I/O Die 2<br/>8ch MRDIMM<br/>PCIe 5.0]
    IPD1[IPD x4] --- IOD1
    IPD2[IPD x4] --- IOD2
  end

Venice 核心规格

规格
平台 SP5(延续 Turin 平台,socket 兼容)
制程 TSMC N2(Zen 6c CCD)
密集型核心 Zen 6c,每 CCD 32 核,4×8 Mesh 排布
标准型核心 Zen 6(”-F” 频率优化 SKU),每 CCD 12 核
最大核数 256 核(8 × Zen 6c CCD,有 SMT = 512 线程
“-F” 最大核数 96 核(8 × Zen 6 CCD,对标 AI head node 场景)
L3 缓存 4 MB/核(Zen 6c 恢复满配,不再减半),每 CCD 128 MB
内存 16 通道 DDR5 MRDIMM-12800,总带宽 1.64 TB/s
内存带宽提升 相较 Turin 12ch DDR5-6400,提升 2.67×
PCIe PCIe 5.0 + CXL 2.0(128 lanes)
新增指令集 AVX512_FP16、AVX_VNNI_INT8、AVX512_BMM
8ch 平台 Venice SP8(最多 128 核 Zen 6c,8 通道 MRDIMM)
封装特殊元件 8 枚 IPD(集成无源器件),平滑高密度 I/O 区域供电

AVX512_BMM:位矩阵乘法新指令

Zen 6 引入的 AVX512_BMM 是一条颇具新意的指令:FPU 寄存器存储 16×16 二进制矩阵,通过 OR 和 XOR 运算完成位矩阵乘加(BMM)。二进制矩阵运算代价极低,对 Verilog 仿真等 EDA 工具有显著加速潜力。不过,BMM 精度不足以支撑 LLM 推理,AI 计算场景的实际采用率预计有限。

性能数据

AMD 官方公布,Venice 256 核旗舰在 SPECrate®2017_int_base 上较 Turin 192 核旗舰性能/瓦提升超过 1.7×——核均性能同样提升,这意味着 Zen 6 IPC 增益相当可观。

AMD 的战略反制:Venice SP8

Intel 取消 8 通道 SP 主流平台之际,AMD 反其道而行之,推出 Venice SP8 平台:

  • 最多 128 核 Zen 6c
  • 8 通道 DDR5 MRDIMM
  • 继承 EPYC 8004 Siena 的小封装低功耗定位
  • 直接填补 Intel 主流双路市场的真空

这一步棋的时机之准,让咱不禁莞尔:Intel 主动让出的地盘,AMD 一颗不落地接住了。

EPYC 命名规则

AMD EPYC 命名比 Intel 的”金属系列”直接得多:

1
2
3
4
5
6
7
EPYC 9 5 5 4 P
│ │ │ │ │
│ │ │ │ └── P = 仅限单路(无字母 = 双路均可)
│ │ │ └──── 性能档位(核数/频率梯度,越大越强)
│ │ └────── 系列代码
│ └──────── 代次:1=Naples, 2=Rome, 3=Milan, 4=Genoa, 5=Turin, 6=Venice
└────────── 系列:9 = 服务器 EPYC

举例:

  • EPYC 7763 = 第 3 代(Milan),高端
  • EPYC 9654 = 第 4 代(Genoa),96 核旗舰
  • EPYC 9755 = 第 5 代(Turin),128 核旗舰
  • EPYC 9965 = 第 5 代 Turin Dense,192 核

AMD vs Intel:关键差异

2026 年时间点对比(Turin / Venice vs Granite Rapids / Diamond Rapids)

Intel Xeon 6 (Granite Rapids) AMD EPYC 9005 (Turin) AMD EPYC Venice (2026) Intel Diamond Rapids (2026)
工艺 Intel 3 TSMC 3nm TSMC N2 Intel 18A-P + Intel 3-PT
最大核数 128(P) / 288(E) 128 / 192(Dense) 256(Zen 6c) 192(无 SMT)
最大线程数 256 / 288 256 / 384 512 192
内存通道 12 12 16 16
内存带宽峰值 ~770 GB/s ~615 GB/s 1.64 TB/s 约同量级 MRDIMM
PCIe 5.0 / 88-96 lanes 5.0 / 128 lanes 5.0 / 128 lanes 6.0 + CXL 3.0
SMT 支持(P-core) 支持 支持 ❌ 不支持
AVX-512 全功能 全功能 + Zen 6 BMM 全功能 + AVX512_BMM 全功能
AMX 矩阵加速 支持 不支持 不支持 支持
8ch 主流平台 ❌ 取消 有(Siena) ✅ Venice SP8 ❌ 取消

性能差距估算(多线程场景)

  • Turin 96c vs Granite Rapids 128c:大致持平(96 核 Turin ≈ 128 核 GNR)
  • Venice 256c vs Diamond Rapids 192c(无 SMT):Venice 领先幅度显著拉大
  • Venice 在 SPECrate 整型基准上的性能/瓦是 Turin 的 >1.7×

总结:AMD 在 2026-2028 的多核多线程赛道上建立的领先优势,短期内看不到被追平的可能——除非 Intel Coral Rapids(预计 2028)带回 SMT。

国产 X86 的特殊角色:海光

海光(Hygon)是国内 x86 服务器的代表:

graph TB
  AMD[AMD] -- 51% 控股 --> CHENGDU[成都海光微电子<br/>持有 Zen 1 授权]
  HAIGUANG[海光集团] -- 70% 控股 --> JCHIP[海光集成电路<br/>设计公司]
  JCHIP -- 购买授权 --> CHENGDU
  CHENGDU -- 生产 --> CHIP[Hygon CPU<br/>Dhyana 系列]

这种合资结构的目的:通过 51%/49% 股权配置满足 X86 授权方对”知识产权控制权”的要求,同时让海光集团合法地在国内设计、生产、销售带 X86 指令集的 CPU。

海光路线图:

代次 工艺 微架构基础 核数 内存 PCIe 量产年份
海光一号 Dhyana 14nm Zen 1 32 8×DDR4-2666 128×PCIe 3.0 2018
海光二号 14nm Zen 1+(自研) 32 8×DDR4-2933 128×PCIe 3.0 2020
海光三号 14nm 自研 C86-3G 32 8×DDR4-3200 128×PCIe 4.0 2022
海光四号 7400 系列 待补充 自研(IPC +15%) 64 12×DDR5-4800 128×PCIe 5.0 2024+
海光四号 7300 系列 待补充 自研 32 8×DDR5-5200 128×PCIe 5.0 2024+

待补充:海光四号实际工艺节点和量产时间核对,海光”自研”程度细节。

小结

  • Zen 让 AMD 在 5 年内把服务器市场份额从 ~1% 拉到 25%+
  • Chiplet 是 AMD 的关键技术杠杆,今天已成为高端 CPU 标配
  • EPYC 六代演进:Naples → Rome → Milan → Genoa → Turin → Venice,每代都有清晰的台阶
  • Venice(Zen 6c,TSMC N2):256 核 / 512 线程,16ch MRDIMM 1.64 TB/s,AVX512_BMM,SP8 平台填补 Intel 让出的主流市场
  • AMD 在核数、PCIe 通道、AVX-512 实现、线程数上有优势;Intel 在加速器(AMX/QAT)和 PCIe 6.0 上有优势
  • Diamond Rapids 无 SMT + 取消 8ch SP 平台:AMD Venice 2026-2028 的市场窗口大开
  • 国内海光基于 Zen 1 授权自研演进,是 X86 国产化的代表

下一篇我们离开 X86,看国产 CPU 的全景图。

内容深度由贤狼赫萝于 2026-06-15 增补,引用来源:SemiAnalysis CPUs are Back 2026。