ARM 服务器 CPU —— Graviton、Grace、AmpereOne
ARM 服务器的故事 2010 年代讲过好几次都没成功——Calxeda、Cavium ThunderX、AMCC X-Gene 都没活下来。但 2018 年 AWS Graviton 第一次让 ARM 服务器在公有云规模化跑起来,到 2026 年 ARM 已经是数据中心市场不能忽视的力量。本文盘点国际市场的三家代表。
ARM 服务器的”逆袭逻辑”
为什么 ARM 在 2018 年之后突然能做服务器?三个变化:
graph LR
V1[ARMv8 64位<br/>2011 规范] --> S[ARM 服务器可行]
V2[云原生 + 容器<br/>x86 锁定弱化] --> S
V3[超大规模云厂自研<br/>规模摊薄成本] --> S
S --> ECON[经济性成立]
- 指令集成熟:ARMv8 64 位规范完整,可以跑现代 Linux 发行版
- 生态去 x86 化:容器、Go/Java/Python、托管数据库……应用对底层 ISA 不再敏感
- 超大规模厂商:自己一次买几百万颗芯片,自研定制比买通用芯片更划算
第三点是关键。只有能消化几百万颗芯片销量的厂商,才能负担得起芯片设计和流片成本——这就是为什么 ARM 服务器最先在 AWS 起飞,而不是普通 OEM 渠道。
AWS Graviton:第一个跑起来的
亚马逊 2015 年收购 Annapurna Labs,2018 年发布 Graviton 1,让 ARM 服务器从”白皮书”变成”AWS 控制台上 1 美分的实例”。
| 代次 | 核心 | 工艺 | 核数 | 量产年份 | 实例类型 |
|---|---|---|---|---|---|
| Graviton 1 | Cortex-A72 | 16nm | 16 | 2018 | A1(验证性产品) |
| Graviton 2 | Neoverse N1 | 7nm | 64 | 2019 | M6g/C6g/R6g 大规模铺开 |
| Graviton 3 | Neoverse V1 | 5nm | 64 | 2022 | M7g/C7g/R7g,DDR5 |
| Graviton 3E | Neoverse V1 | 5nm | 64 | 2022 | HPC 优化 |
| Graviton 4 | Neoverse V2 | 4nm | 96 | 2024 | R8g/M8g/C8g |
| Graviton 5 | Neoverse V3 | 3nm | 192 | 2025/2026 | AI head node + 通用 |
Graviton 2 是关键节点——性价比比同期 Intel 实例高 40%,AWS 把它推到了主流通用计算实例。Graviton 4 单核性能已与 Intel/AMD 旗舰可比。
到 2024 年,AWS 自家新部署的服务器超过 50% 是 Graviton。
Graviton 5(2025/2026)——大跨步
Graviton 5 自 2025 年 12 月进入预览,是迄今为止 AWS 最激进的一次代际跳跃。
核心规格:
| 项 | 规格 |
|---|---|
| 制程 | TSMC 3nm |
| 核心 | 192 × Neoverse V3 |
| 晶体管数量 | 1720 亿(172B) |
| 核均 L2 缓存 | 2 MB(与 Graviton 4 持平) |
| 共享 L3 缓存 | 192 MB(Graviton 4 仅 36 MB,提升 5.3×) |
| 内存 | 12 通道 DDR5-8800 |
| PCIe | PCIe 6.0(lane 数从 96 缩减至 64,成本优化) |
| Mesh 拓扑 | 8×12 Core Mesh,每 mesh stop 共享 2 核 |
| 封装 | 多计算 die 先进封装(AWS 未公开具体方案,但确认采用 chiplet) |
关键设计取舍:
- L3 缓存从 36 MB 暴增到 192 MB,是应对核数翻倍(96→192)而内存带宽提升有限(57%)的主要缓冲手段
- PCIe lane 数从 96 缩减至 64——AWS 表示实际部署中大量 PCIe lane 闲置,此举降低 TCO 而不影响性能
- Mesh 网络拆分在多枚计算 die 上,die-to-die 互联细节未公开
Graviton 生态飞轮:AWS 用数千颗 Graviton CPU 运行内部 CI/CD 和 EDA 工具来设计下一代 Graviton、Trainium、Nitro 芯片——Graviton 设计 Graviton,是少见的内部闭环。Trainium3 AI 加速器也将以 Graviton 5 作为 head node(1 CPU 搭配 4 XPU),接替此前使用的 Graviton 4。
与 Intel/AMD 的定位对比:
graph LR
G5[Graviton 5<br/>192核 Neoverse V3<br/>TSMC 3nm] -- AI head node --> TR3[Trainium3 集群]
G5 -- 通用云计算 --> EC2[EC2 通用实例]
Venice[AMD Venice<br/>256核 Zen6c] -- AI head node --> MI[MI455X 集群]
DR[Intel Diamond Rapids<br/>192核 无SMT] -- AI head node --> GNR[Gaudi 集群]
Graviton 5 的定位与 AMD Venice 的”-F”版本(AI head node 场景,96 核高频 Zen 6)颇为相似——都是为 AI 加速器集群提供高效 CPU 支撑,而非堆砌最大核数。
NVIDIA Grace/Vera:为 AI 而生
NVIDIA 不是传统 CPU 厂商,但 Hopper/Blackwell GPU 想要的东西超出了 x86 能给的:
- CPU↔GPU 高带宽互联(PCIe 5.0 x16 双向 128 GB/s 不够用)
- CPU 侧 LPDDR 大容量低延迟
- 统一内存地址空间
为此 NVIDIA 自研了 Grace CPU,并把它跟 GPU 集成到一颗 module 里。
Grace CPU(GH200 时代)
| 项 | 规格 |
|---|---|
| 核心 | 72 × Neoverse V2 |
| 缓存 | 117 MB L3 |
| 内存 | LPDDR5X-8533,最多 480 GB |
| 内存带宽 | >500 GB/s(远超 DDR5 12 通道) |
| TDP | 250 W |
| 互联 | NVLink-C2C 至 Grace 或 Hopper |
Grace Hopper Superchip(GH200)
1 | |
CPU 和 GPU 在一个 module 上通过 NVLink-C2C(900 GB/s) 直连,比 PCIe 5.0 x16 快 7 倍。这种紧耦合让 GPU 可以透明访问 CPU 内存,对超大模型训练尤其重要。
Grace Blackwell Superchip(GB200)
下一代把 1 颗 Grace 配 2 颗 Blackwell GPU:
1 | |
NVL72 整机柜 = 36× GB200 = 72 GPU + 36 Grace CPU——第一章已讲过。
Grace 的已知性能瓶颈:Neoverse V2 的分支预测 BTB(Branch Target Buffer)在超过 24 个热代码区域时开始抖动,超过 32 个区域则触发全量刷新,导致 AI 推理中大型应用出现可观的前端停顿。NVIDIA 自己的调优指南承认,代码局部性优化可带来高达 50% 的性能提升——这也是 Vera 要彻底换核的直接动因。
Vera CPU(Rubin 平台,2026)
Vera 是 Grace 的继任,随 Rubin GPU 平台一同发布,是 NVIDIA 在 CPU 设计上最激进的一次迭代。
核心规格:
| 项 | 规格 |
|---|---|
| 核心微架构 | NVIDIA Olympus(自研 ARMv9.2,8 年来首次) |
| SMT | ✅ 支持(Olympus 原生支持 SMT) |
| 核数 / 线程数 | 88 核 / 176 线程 |
| L2 缓存 | 2 MB/核(Grace 的 2 倍) |
| L3 缓存 | 162 MB |
| Mesh 拓扑 | 7×13 网格,91 核印制,88 核启用 |
| 内存 | 8 × 128-bit LPDDR5 SOCAMM 模组,每模组 192 GB |
| 总内存容量 | 1.5 TB |
| 内存带宽 | 1.2 TB/s |
| NVLink-C2C 带宽 | 1.8 TB/s(Grace 的 2×) |
| 封装 | CoWoS-R,6 个 chiplet |
| PCIe | PCIe 6.0 + CXL 3.0 |
Vera 的 6-chiplet 封装剖析:
graph TB
subgraph CoWoS-R封装
COMPUTE[计算 die<br/>3nm<br/>88核 Olympus + NVLink-C2C]
MEM1[LPDDR5 die 1]
MEM2[LPDDR5 die 2]
MEM3[LPDDR5 die 3]
MEM4[LPDDR5 die 4]
IO[PCIe 6.0 / CXL 3.0<br/>I/O die]
COMPUTE --- MEM1
COMPUTE --- MEM2
COMPUTE --- MEM3
COMPUTE --- MEM4
COMPUTE --- IO
end
COMPUTE -- NVLink-C2C 1.8TB/s --> RUBIN[Rubin GPU]
NVIDIA 把内存 die 和 I/O die 从计算 die 中剥离,总计 1 枚计算 die + 4 枚 LPDDR5 die + 1 枚 I/O die = 6 chiplet,通过 CoWoS-R(Chip-on-Wafer-on-Substrate Reconstituted)封装在一起。
Olympus 核心:Grace 瓶颈的终结
NVIDIA 上一次自研 CPU 核是 8 年前的 Tegra Xavier(Carmel,10-wide 超标量)。Olympus 是新一代:
- ARMv9.2 指令集,支持 ARM SVE2 FP8 运算
- 浮点单元宽度从 Neoverse V2 的 4× 128-bit 扩展到 6× 128-bit
- 原生 SMT 支持,88 核呈现为 176 线程
- 彻底解决了 V2 的 BTB 分支预测瓶颈
Vera 整体性能目标:相较 Grace,NVIDIA 声称 Vera 实现 2× 性能提升。
Vera Rubin Superchip:
1 | |
Grace vs Vera 对比:
| 项 | NVIDIA Grace | NVIDIA Vera |
|---|---|---|
| 核心 | Neoverse V2 | Olympus(自研) |
| SMT | ❌ | ✅ |
| 核数 / 线程 | 72 / 72 | 88 / 176 |
| L2 缓存/核 | 1 MB | 2 MB |
| L3 缓存 | 117 MB | 162 MB |
| 内存容量 | 480 GB | 1.5 TB |
| 内存带宽 | >500 GB/s | 1.2 TB/s |
| NVLink-C2C | 900 GB/s | 1.8 TB/s |
| 封装 | 单 die + EMIB | CoWoS-R,6 chiplet |
| 配套 GPU | Hopper / Blackwell | Rubin |
| 性能提升(vs 上代) | 基线 | ~2× |
Vera 的意义不只是规格提升——它标志着 NVIDIA 彻底告别 ARM 授权核依赖,走向自研核路线,与 Apple(Firestorm/Everest)的逻辑如出一辙:当通用 ARM 核的性能不再满足需求,自己造。
Ampere AmpereOne:纯云原生 ARM
Ampere Computing 是 AppliedMicro X-Gene 团队的延续,由前 Intel 总裁 Renee James 创立,专做 ARM 服务器 CPU 卖给二级云厂商和企业。
| 代次 | 微架构 | 工艺 | 核数 | 内存 | 量产 |
|---|---|---|---|---|---|
| eMAG | A72/N1 衍生 | 16nm | 32 | 8×DDR4-2667 | 2018 |
| Altra | Neoverse N1 | 7nm | 80 | 8×DDR4-3200 | 2020 |
| Altra Max | Neoverse N1 | 7nm | 128 | 8×DDR4-3200 | 2021 |
| AmpereOne | 自研 Ampere 核 | 5nm | 192 | 8×DDR5-5200 | 2023 |
| AmpereOne M | 自研 | 5nm | 192 | 12×DDR5-5600 | 2024 |
| AmpereOne MX/Aurora | 自研 + AI | 待补充 | 256+ | 12×DDR5 | 2025+ |
AmpereOne 的特点:
- 专为云原生设计:每核独占 L2,不带 SMT,按租户隔离友好
- 核数密度高:192 核(vs Intel SRF 288,AMD Bergamo 128)
- 客户:Oracle Cloud(OCI 全平台 ARM 化)、Google Cloud(部分实例)、Microsoft Azure、Hetzner、字节跳动等
AmpereOne 是当前云市场最纯粹的 ARM 服务器 CPU——它不像 AWS Graviton 锁定单一厂商,是其他云厂商和企业自建 IDC 的可选方案。
待补充:AmpereOne MX/Aurora 的最新进度和 AI 加速器集成情况。
国际 ARM 服务器对比
| Graviton 4 | Graviton 5 | Grace | Vera | AmpereOne M | |
|---|---|---|---|---|---|
| 核心 | Neoverse V2 | Neoverse V3 | Neoverse V2 | Olympus(自研) | Ampere 自研 |
| 核数 | 96 | 192 | 72 | 88 | 192 |
| SMT | ❌ | ❌ | ❌ | ✅(176线程) | ❌ |
| 内存类型 | DDR5 | DDR5-8800 | LPDDR5X | LPDDR5 SOCAMM | DDR5 |
| 内存带宽 | ~600 GB/s | ~1.1 TB/s | >500 GB/s | 1.2 TB/s | ~600 GB/s |
| 内存容量上限 | ~3 TB | ~6 TB | 480 GB | 1.5 TB | ~3 TB |
| GPU 互联 | — | Trainium3 | NVLink-C2C 900GB/s | NVLink-C2C 1.8TB/s | — |
| 主要用途 | AWS 通用计算 | AI head node + 通用 | AI 训练/推理 | Rubin GPU head node | 通用云、容器密度 |
| 销售模式 | AWS 自用 | AWS 自用 | NVIDIA 整机 | NVIDIA 整机 | 公开销售 |
一张全景
graph TB
ARM[ARMv8/v9 ISA]
ARM --> AWS[AWS Graviton<br/>自研, 仅自用<br/>G5: 192核 Neoverse V3]
ARM --> NV[NVIDIA Grace/Vera<br/>自研 Olympus 核, 配 GPU<br/>Vera: 88核 1.8TB/s C2C]
ARM --> AC[Ampere One<br/>自研, 公开卖<br/>云原生 + 企业]
ARM --> KP[华为鲲鹏<br/>自研, 中国市场<br/>通用 + 整机]
ARM --> FT[飞腾<br/>自研, 党政市场<br/>合规 + 安可]
ARM --> MS[Microsoft Cobalt 200<br/>自研 v9, Azure 自用<br/>132核 Neoverse V3]
ARM --> GC[Google Axion<br/>自研 v9, GCP 自用<br/>96核 C4A]
值得关注的是 2024-2026 年涌现的 Microsoft Cobalt 200 和 Google Axion——超大规模云厂商已经基本都”自研一颗 ARM 服务器 CPU”。这是 ARM 服务器进入主流的最强信号。
待补充:Cobalt 200 和 Axion 在 Azure/GCP 上的实际部署占比。
ARM 服务器的现实约束
ARM 服务器并非”全方位优于 x86”,几个真实痛点:
| 痛点 | 说明 |
|---|---|
| 单线程绝对性能 | 仍稍弱于 Intel/AMD 旗舰,对老旧单线程业务不友好 |
| AVX-512 / AMX 类指令 | ARM SVE/SVE2/SME 仍在普及中,AI 推理生态弱于 Intel AMX |
| 商业软件兼容 | Oracle DB、SAP HANA 等仍以 x86 为主 |
| 生态碎片化 | ARMv8、ARMv9、各家自定义扩展,需要根据具体核选编译 |
ARM 服务器最好的场景:云原生应用(容器、Java、Go、Python)、Web/API 服务、AI 推理(搭配 NPU/GPU)、HPC(搭配 SVE)、AI 训练集群 head node(Graviton5 / Vera)。
小结
- ARM 服务器 2018 起从”白皮书”变成”AWS 一半新机型”
- AWS Graviton 5(2026):192 核 Neoverse V3,TSMC 3nm,192 MB L3,12ch DDR5-8800,多 die 先进封装,同时担任 Trainium3 head node
- NVIDIA Vera(2026):88 核自研 Olympus(ARMv9.2,SMT),NVLink-C2C 1.8 TB/s,1.5 TB LPDDR5,CoWoS-R 6 chiplet,配 Rubin GPU;Olympus 终结 Grace BTB 瓶颈,宣告 NVIDIA CPU 自研路线正式回归
- 微软 Cobalt 200、Google Axion 加入战局,超大规模厂全部自研 ARM 服务器 CPU
- 兼容性、单核性能、加速指令是 ARM 服务器仍存在的差距
- 国内(鲲鹏 / 飞腾)走自己路,但和国际 ARM 阵营在指令集层面相通
下一篇回到微观——讲 CPU 的微架构核心概念:缓存、流水线、超标量、分支预测、SMT。
内容深度由贤狼赫萝于 2026-06-15 增补,引用来源:SemiAnalysis CPUs are Back 2026。