ARM 服务器 CPU —— Graviton、Grace、AmpereOne

ARM 服务器的故事 2010 年代讲过好几次都没成功——Calxeda、Cavium ThunderX、AMCC X-Gene 都没活下来。但 2018 年 AWS Graviton 第一次让 ARM 服务器在公有云规模化跑起来，到 2026 年 ARM 已经是数据中心市场不能忽视的力量。本文盘点国际市场的三家代表。

ARM 服务器的”逆袭逻辑”

为什么 ARM 在 2018 年之后突然能做服务器？三个变化：

graph LR
  V1[ARMv8 64位<br/>2011 规范] --> S[ARM 服务器可行]
  V2[云原生 + 容器<br/>x86 锁定弱化] --> S
  V3[超大规模云厂自研<br/>规模摊薄成本] --> S
  S --> ECON[经济性成立]

指令集成熟：ARMv8 64 位规范完整，可以跑现代 Linux 发行版
生态去 x86 化：容器、Go/Java/Python、托管数据库……应用对底层 ISA 不再敏感
超大规模厂商：自己一次买几百万颗芯片，自研定制比买通用芯片更划算

第三点是关键。只有能消化几百万颗芯片销量的厂商，才能负担得起芯片设计和流片成本——这就是为什么 ARM 服务器最先在 AWS 起飞，而不是普通 OEM 渠道。

AWS Graviton：第一个跑起来的

亚马逊 2015 年收购 Annapurna Labs，2018 年发布 Graviton 1，让 ARM 服务器从”白皮书”变成”AWS 控制台上 1 美分的实例”。

代次	核心	工艺	核数	量产年份	实例类型
Graviton 1	Cortex-A72	16nm	16	2018	A1（验证性产品）
Graviton 2	Neoverse N1	7nm	64	2019	M6g/C6g/R6g 大规模铺开
Graviton 3	Neoverse V1	5nm	64	2022	M7g/C7g/R7g，DDR5
Graviton 3E	Neoverse V1	5nm	64	2022	HPC 优化
Graviton 4	Neoverse V2	4nm	96	2024	R8g/M8g/C8g
Graviton 5	Neoverse V3	3nm	192	2025/2026	AI head node + 通用

Graviton 2 是关键节点——性价比比同期 Intel 实例高 40%，AWS 把它推到了主流通用计算实例。Graviton 4 单核性能已与 Intel/AMD 旗舰可比。

到 2024 年，AWS 自家新部署的服务器超过 50% 是 Graviton。

Graviton 5（2025/2026）——大跨步

Graviton 5 自 2025 年 12 月进入预览，是迄今为止 AWS 最激进的一次代际跳跃。

核心规格：

项	规格
制程	TSMC 3nm
核心	192 × Neoverse V3
晶体管数量	1720 亿（172B）
核均 L2 缓存	2 MB（与 Graviton 4 持平）
共享 L3 缓存	192 MB（Graviton 4 仅 36 MB，提升 5.3×）
内存	12 通道 DDR5-8800
PCIe	PCIe 6.0（lane 数从 96 缩减至 64，成本优化）
Mesh 拓扑	8×12 Core Mesh，每 mesh stop 共享 2 核
封装	多计算 die 先进封装（AWS 未公开具体方案，但确认采用 chiplet）

关键设计取舍：

L3 缓存从 36 MB 暴增到 192 MB，是应对核数翻倍（96→192）而内存带宽提升有限（57%）的主要缓冲手段
PCIe lane 数从 96 缩减至 64——AWS 表示实际部署中大量 PCIe lane 闲置，此举降低 TCO 而不影响性能
Mesh 网络拆分在多枚计算 die 上，die-to-die 互联细节未公开

Graviton 生态飞轮：AWS 用数千颗 Graviton CPU 运行内部 CI/CD 和 EDA 工具来设计下一代 Graviton、Trainium、Nitro 芯片——Graviton 设计 Graviton，是少见的内部闭环。Trainium3 AI 加速器也将以 Graviton 5 作为 head node（1 CPU 搭配 4 XPU），接替此前使用的 Graviton 4。

与 Intel/AMD 的定位对比：

graph LR
  G5[Graviton 5<br/>192核 Neoverse V3<br/>TSMC 3nm] -- AI head node --> TR3[Trainium3 集群]
  G5 -- 通用云计算 --> EC2[EC2 通用实例]
  Venice[AMD Venice<br/>256核 Zen6c] -- AI head node --> MI[MI455X 集群]
  DR[Intel Diamond Rapids<br/>192核 无SMT] -- AI head node --> GNR[Gaudi 集群]

Graviton 5 的定位与 AMD Venice 的”-F”版本（AI head node 场景，96 核高频 Zen 6）颇为相似——都是为 AI 加速器集群提供高效 CPU 支撑，而非堆砌最大核数。

NVIDIA Grace/Vera：为 AI 而生

NVIDIA 不是传统 CPU 厂商，但 Hopper/Blackwell GPU 想要的东西超出了 x86 能给的：

CPU↔GPU 高带宽互联（PCIe 5.0 x16 双向 128 GB/s 不够用）
CPU 侧 LPDDR 大容量低延迟
统一内存地址空间

为此 NVIDIA 自研了 Grace CPU，并把它跟 GPU 集成到一颗 module 里。

Grace CPU（GH200 时代）

项	规格
核心	72 × Neoverse V2
缓存	117 MB L3
内存	LPDDR5X-8533，最多 480 GB
内存带宽	>500 GB/s（远超 DDR5 12 通道）
TDP	250 W
互联	NVLink-C2C 至 Grace 或 Hopper

Grace Hopper Superchip（GH200）

┌─────────────────────────────────────┐
│  Grace CPU      ⇄ NVLink-C2C ⇄    Hopper GPU  │
│  72-core        900 GB/s          H100/H200    │
│  LPDDR5X 480GB                     HBM3e 144GB │
└─────────────────────────────────────┘

CPU 和 GPU 在一个 module 上通过 NVLink-C2C（900 GB/s） 直连，比 PCIe 5.0 x16 快 7 倍。这种紧耦合让 GPU 可以透明访问 CPU 内存，对超大模型训练尤其重要。

Grace Blackwell Superchip（GB200）

下一代把 1 颗 Grace 配 2 颗 Blackwell GPU：

1	`1× Grace CPU + 2× Blackwell GPU → 1 个 GB200 Superchip`

NVL72 整机柜 = 36× GB200 = 72 GPU + 36 Grace CPU——第一章已讲过。

Grace 的已知性能瓶颈：Neoverse V2 的分支预测 BTB（Branch Target Buffer）在超过 24 个热代码区域时开始抖动，超过 32 个区域则触发全量刷新，导致 AI 推理中大型应用出现可观的前端停顿。NVIDIA 自己的调优指南承认，代码局部性优化可带来高达 50% 的性能提升——这也是 Vera 要彻底换核的直接动因。

Vera CPU（Rubin 平台，2026）

Vera 是 Grace 的继任，随 Rubin GPU 平台一同发布，是 NVIDIA 在 CPU 设计上最激进的一次迭代。

核心规格：

项	规格
核心微架构	NVIDIA Olympus（自研 ARMv9.2，8 年来首次）
SMT	✅ 支持（Olympus 原生支持 SMT）
核数 / 线程数	88 核 / 176 线程
L2 缓存	2 MB/核（Grace 的 2 倍）
L3 缓存	162 MB
Mesh 拓扑	7×13 网格，91 核印制，88 核启用
内存	8 × 128-bit LPDDR5 SOCAMM 模组，每模组 192 GB
总内存容量	1.5 TB
内存带宽	1.2 TB/s
NVLink-C2C 带宽	1.8 TB/s（Grace 的 2×）
封装	CoWoS-R，6 个 chiplet
PCIe	PCIe 6.0 + CXL 3.0

Vera 的 6-chiplet 封装剖析：

graph TB
  subgraph CoWoS-R封装
    COMPUTE[计算 die<br/>3nm<br/>88核 Olympus + NVLink-C2C]
    MEM1[LPDDR5 die 1]
    MEM2[LPDDR5 die 2]
    MEM3[LPDDR5 die 3]
    MEM4[LPDDR5 die 4]
    IO[PCIe 6.0 / CXL 3.0<br/>I/O die]
    COMPUTE --- MEM1
    COMPUTE --- MEM2
    COMPUTE --- MEM3
    COMPUTE --- MEM4
    COMPUTE --- IO
  end
  COMPUTE -- NVLink-C2C 1.8TB/s --> RUBIN[Rubin GPU]

NVIDIA 把内存 die 和 I/O die 从计算 die 中剥离，总计 1 枚计算 die + 4 枚 LPDDR5 die + 1 枚 I/O die = 6 chiplet，通过 CoWoS-R（Chip-on-Wafer-on-Substrate Reconstituted）封装在一起。

Olympus 核心：Grace 瓶颈的终结

NVIDIA 上一次自研 CPU 核是 8 年前的 Tegra Xavier（Carmel，10-wide 超标量）。Olympus 是新一代：

ARMv9.2 指令集，支持 ARM SVE2 FP8 运算
浮点单元宽度从 Neoverse V2 的 4× 128-bit 扩展到 6× 128-bit
原生 SMT 支持，88 核呈现为 176 线程
彻底解决了 V2 的 BTB 分支预测瓶颈

Vera 整体性能目标：相较 Grace，NVIDIA 声称 Vera 实现 2× 性能提升。

Vera Rubin Superchip：

1× Vera CPU  +  2× Rubin GPU  → 1 个 VR200 Superchip
NVLink-C2C: 1.8 TB/s（双向）
CPU 内存: 1.5 TB LPDDR5
GPU 内存: Rubin HBM（规格待定）

Grace vs Vera 对比：

项	NVIDIA Grace	NVIDIA Vera
核心	Neoverse V2	Olympus（自研）
SMT	❌	✅
核数 / 线程	72 / 72	88 / 176
L2 缓存/核	1 MB	2 MB
L3 缓存	117 MB	162 MB
内存容量	480 GB	1.5 TB
内存带宽	>500 GB/s	1.2 TB/s
NVLink-C2C	900 GB/s	1.8 TB/s
封装	单 die + EMIB	CoWoS-R，6 chiplet
配套 GPU	Hopper / Blackwell	Rubin
性能提升（vs 上代）	基线	~2×

Vera 的意义不只是规格提升——它标志着 NVIDIA 彻底告别 ARM 授权核依赖，走向自研核路线，与 Apple（Firestorm/Everest）的逻辑如出一辙：当通用 ARM 核的性能不再满足需求，自己造。

Ampere AmpereOne：纯云原生 ARM

Ampere Computing 是 AppliedMicro X-Gene 团队的延续，由前 Intel 总裁 Renee James 创立，专做 ARM 服务器 CPU 卖给二级云厂商和企业。

代次	微架构	工艺	核数	内存	量产
eMAG	A72/N1 衍生	16nm	32	8×DDR4-2667	2018
Altra	Neoverse N1	7nm	80	8×DDR4-3200	2020
Altra Max	Neoverse N1	7nm	128	8×DDR4-3200	2021
AmpereOne	自研 Ampere 核	5nm	192	8×DDR5-5200	2023
AmpereOne M	自研	5nm	192	12×DDR5-5600	2024
AmpereOne MX/Aurora	自研 + AI	待补充	256+	12×DDR5	2025+

AmpereOne 的特点：

专为云原生设计：每核独占 L2，不带 SMT，按租户隔离友好
核数密度高：192 核（vs Intel SRF 288，AMD Bergamo 128）
客户：Oracle Cloud（OCI 全平台 ARM 化）、Google Cloud（部分实例）、Microsoft Azure、Hetzner、字节跳动等

AmpereOne 是当前云市场最纯粹的 ARM 服务器 CPU——它不像 AWS Graviton 锁定单一厂商，是其他云厂商和企业自建 IDC 的可选方案。

待补充：AmpereOne MX/Aurora 的最新进度和 AI 加速器集成情况。

国际 ARM 服务器对比

	Graviton 4	Graviton 5	Grace	Vera	AmpereOne M
核心	Neoverse V2	Neoverse V3	Neoverse V2	Olympus（自研）	Ampere 自研
核数	96	192	72	88	192
SMT	❌	❌	❌	✅（176线程）	❌
内存类型	DDR5	DDR5-8800	LPDDR5X	LPDDR5 SOCAMM	DDR5
内存带宽	~600 GB/s	~1.1 TB/s	>500 GB/s	1.2 TB/s	~600 GB/s
内存容量上限	~3 TB	~6 TB	480 GB	1.5 TB	~3 TB
GPU 互联	—	Trainium3	NVLink-C2C 900GB/s	NVLink-C2C 1.8TB/s	—
主要用途	AWS 通用计算	AI head node + 通用	AI 训练/推理	Rubin GPU head node	通用云、容器密度
销售模式	AWS 自用	AWS 自用	NVIDIA 整机	NVIDIA 整机	公开销售

一张全景

graph TB
  ARM[ARMv8/v9 ISA]
  ARM --> AWS[AWS Graviton<br/>自研, 仅自用<br/>G5: 192核 Neoverse V3]
  ARM --> NV[NVIDIA Grace/Vera<br/>自研 Olympus 核, 配 GPU<br/>Vera: 88核 1.8TB/s C2C]
  ARM --> AC[Ampere One<br/>自研, 公开卖<br/>云原生 + 企业]
  ARM --> KP[华为鲲鹏<br/>自研, 中国市场<br/>通用 + 整机]
  ARM --> FT[飞腾<br/>自研, 党政市场<br/>合规 + 安可]
  ARM --> MS[Microsoft Cobalt 200<br/>自研 v9, Azure 自用<br/>132核 Neoverse V3]
  ARM --> GC[Google Axion<br/>自研 v9, GCP 自用<br/>96核 C4A]

值得关注的是 2024-2026 年涌现的 Microsoft Cobalt 200 和 Google Axion——超大规模云厂商已经基本都”自研一颗 ARM 服务器 CPU”。这是 ARM 服务器进入主流的最强信号。

待补充：Cobalt 200 和 Axion 在 Azure/GCP 上的实际部署占比。

ARM 服务器的现实约束

ARM 服务器并非”全方位优于 x86”，几个真实痛点：

痛点	说明
单线程绝对性能	仍稍弱于 Intel/AMD 旗舰，对老旧单线程业务不友好
AVX-512 / AMX 类指令	ARM SVE/SVE2/SME 仍在普及中，AI 推理生态弱于 Intel AMX
商业软件兼容	Oracle DB、SAP HANA 等仍以 x86 为主
生态碎片化	ARMv8、ARMv9、各家自定义扩展，需要根据具体核选编译

ARM 服务器最好的场景：云原生应用（容器、Java、Go、Python）、Web/API 服务、AI 推理（搭配 NPU/GPU）、HPC（搭配 SVE）、AI 训练集群 head node（Graviton5 / Vera）。

小结

ARM 服务器 2018 起从”白皮书”变成”AWS 一半新机型”
AWS Graviton 5（2026）：192 核 Neoverse V3，TSMC 3nm，192 MB L3，12ch DDR5-8800，多 die 先进封装，同时担任 Trainium3 head node
NVIDIA Vera（2026）：88 核自研 Olympus（ARMv9.2，SMT），NVLink-C2C 1.8 TB/s，1.5 TB LPDDR5，CoWoS-R 6 chiplet，配 Rubin GPU；Olympus 终结 Grace BTB 瓶颈，宣告 NVIDIA CPU 自研路线正式回归
微软 Cobalt 200、Google Axion 加入战局，超大规模厂全部自研 ARM 服务器 CPU
兼容性、单核性能、加速指令是 ARM 服务器仍存在的差距
国内（鲲鹏 / 飞腾）走自己路，但和国际 ARM 阵营在指令集层面相通

下一篇回到微观——讲 CPU 的微架构核心概念：缓存、流水线、超标量、分支预测、SMT。

内容深度由贤狼赫萝于 2026-06-15 增补，引用来源：SemiAnalysis CPUs are Back 2026。

02-CPU

#ARM #Graviton #Grace #AmpereOne

CPU 微架构核心概念 —— 缓存、流水线、超标量、SMT 上一篇

国产服务器 CPU 全景 —— 鲲鹏、飞腾、龙芯、海光、兆芯、申威下一篇