ARM 服务器 CPU —— Graviton、Grace、AmpereOne

ARM 服务器的故事 2010 年代讲过好几次都没成功——Calxeda、Cavium ThunderX、AMCC X-Gene 都没活下来。但 2018 年 AWS Graviton 第一次让 ARM 服务器在公有云规模化跑起来,到 2026 年 ARM 已经是数据中心市场不能忽视的力量。本文盘点国际市场的三家代表。

ARM 服务器的”逆袭逻辑”

为什么 ARM 在 2018 年之后突然能做服务器?三个变化:

graph LR
  V1[ARMv8 64位<br/>2011 规范] --> S[ARM 服务器可行]
  V2[云原生 + 容器<br/>x86 锁定弱化] --> S
  V3[超大规模云厂自研<br/>规模摊薄成本] --> S
  S --> ECON[经济性成立]
  • 指令集成熟:ARMv8 64 位规范完整,可以跑现代 Linux 发行版
  • 生态去 x86 化:容器、Go/Java/Python、托管数据库……应用对底层 ISA 不再敏感
  • 超大规模厂商:自己一次买几百万颗芯片,自研定制比买通用芯片更划算

第三点是关键。只有能消化几百万颗芯片销量的厂商,才能负担得起芯片设计和流片成本——这就是为什么 ARM 服务器最先在 AWS 起飞,而不是普通 OEM 渠道。

AWS Graviton:第一个跑起来的

亚马逊 2015 年收购 Annapurna Labs,2018 年发布 Graviton 1,让 ARM 服务器从”白皮书”变成”AWS 控制台上 1 美分的实例”。

代次 核心 工艺 核数 量产年份 实例类型
Graviton 1 Cortex-A72 16nm 16 2018 A1(验证性产品)
Graviton 2 Neoverse N1 7nm 64 2019 M6g/C6g/R6g 大规模铺开
Graviton 3 Neoverse V1 5nm 64 2022 M7g/C7g/R7g,DDR5
Graviton 3E Neoverse V1 5nm 64 2022 HPC 优化
Graviton 4 Neoverse V2 4nm 96 2024 R8g/M8g/C8g
Graviton 5 Neoverse V3 3nm 192 2025/2026 AI head node + 通用

Graviton 2 是关键节点——性价比比同期 Intel 实例高 40%,AWS 把它推到了主流通用计算实例。Graviton 4 单核性能已与 Intel/AMD 旗舰可比。

到 2024 年,AWS 自家新部署的服务器超过 50% 是 Graviton

Graviton 5(2025/2026)——大跨步

Graviton 5 自 2025 年 12 月进入预览,是迄今为止 AWS 最激进的一次代际跳跃。

核心规格

规格
制程 TSMC 3nm
核心 192 × Neoverse V3
晶体管数量 1720 亿(172B)
核均 L2 缓存 2 MB(与 Graviton 4 持平)
共享 L3 缓存 192 MB(Graviton 4 仅 36 MB,提升 5.3×)
内存 12 通道 DDR5-8800
PCIe PCIe 6.0(lane 数从 96 缩减至 64,成本优化)
Mesh 拓扑 8×12 Core Mesh,每 mesh stop 共享 2 核
封装 多计算 die 先进封装(AWS 未公开具体方案,但确认采用 chiplet)

关键设计取舍

  • L3 缓存从 36 MB 暴增到 192 MB,是应对核数翻倍(96→192)而内存带宽提升有限(57%)的主要缓冲手段
  • PCIe lane 数从 96 缩减至 64——AWS 表示实际部署中大量 PCIe lane 闲置,此举降低 TCO 而不影响性能
  • Mesh 网络拆分在多枚计算 die 上,die-to-die 互联细节未公开

Graviton 生态飞轮:AWS 用数千颗 Graviton CPU 运行内部 CI/CD 和 EDA 工具来设计下一代 Graviton、Trainium、Nitro 芯片——Graviton 设计 Graviton,是少见的内部闭环。Trainium3 AI 加速器也将以 Graviton 5 作为 head node(1 CPU 搭配 4 XPU),接替此前使用的 Graviton 4。

与 Intel/AMD 的定位对比

graph LR
  G5[Graviton 5<br/>192核 Neoverse V3<br/>TSMC 3nm] -- AI head node --> TR3[Trainium3 集群]
  G5 -- 通用云计算 --> EC2[EC2 通用实例]
  Venice[AMD Venice<br/>256核 Zen6c] -- AI head node --> MI[MI455X 集群]
  DR[Intel Diamond Rapids<br/>192核 无SMT] -- AI head node --> GNR[Gaudi 集群]

Graviton 5 的定位与 AMD Venice 的”-F”版本(AI head node 场景,96 核高频 Zen 6)颇为相似——都是为 AI 加速器集群提供高效 CPU 支撑,而非堆砌最大核数。

NVIDIA Grace/Vera:为 AI 而生

NVIDIA 不是传统 CPU 厂商,但 Hopper/Blackwell GPU 想要的东西超出了 x86 能给的:

  • CPU↔GPU 高带宽互联(PCIe 5.0 x16 双向 128 GB/s 不够用)
  • CPU 侧 LPDDR 大容量低延迟
  • 统一内存地址空间

为此 NVIDIA 自研了 Grace CPU,并把它跟 GPU 集成到一颗 module 里。

Grace CPU(GH200 时代)

规格
核心 72 × Neoverse V2
缓存 117 MB L3
内存 LPDDR5X-8533,最多 480 GB
内存带宽 >500 GB/s(远超 DDR5 12 通道)
TDP 250 W
互联 NVLink-C2C 至 Grace 或 Hopper

Grace Hopper Superchip(GH200)

1
2
3
4
5
┌─────────────────────────────────────┐
│ Grace CPU ⇄ NVLink-C2C ⇄ Hopper GPU │
│ 72-core 900 GB/s H100/H200 │
│ LPDDR5X 480GB HBM3e 144GB │
└─────────────────────────────────────┘

CPU 和 GPU 在一个 module 上通过 NVLink-C2C(900 GB/s) 直连,比 PCIe 5.0 x16 快 7 倍。这种紧耦合让 GPU 可以透明访问 CPU 内存,对超大模型训练尤其重要。

Grace Blackwell Superchip(GB200)

下一代把 1 颗 Grace 配 2 颗 Blackwell GPU:

1
1× Grace CPU  +  2× Blackwell GPU  → 1 个 GB200 Superchip

NVL72 整机柜 = 36× GB200 = 72 GPU + 36 Grace CPU——第一章已讲过。

Grace 的已知性能瓶颈:Neoverse V2 的分支预测 BTB(Branch Target Buffer)在超过 24 个热代码区域时开始抖动,超过 32 个区域则触发全量刷新,导致 AI 推理中大型应用出现可观的前端停顿。NVIDIA 自己的调优指南承认,代码局部性优化可带来高达 50% 的性能提升——这也是 Vera 要彻底换核的直接动因。

Vera CPU(Rubin 平台,2026)

Vera 是 Grace 的继任,随 Rubin GPU 平台一同发布,是 NVIDIA 在 CPU 设计上最激进的一次迭代。

核心规格

规格
核心微架构 NVIDIA Olympus(自研 ARMv9.2,8 年来首次)
SMT ✅ 支持(Olympus 原生支持 SMT)
核数 / 线程数 88 核 / 176 线程
L2 缓存 2 MB/核(Grace 的 2 倍)
L3 缓存 162 MB
Mesh 拓扑 7×13 网格,91 核印制,88 核启用
内存 8 × 128-bit LPDDR5 SOCAMM 模组,每模组 192 GB
总内存容量 1.5 TB
内存带宽 1.2 TB/s
NVLink-C2C 带宽 1.8 TB/s(Grace 的 2×)
封装 CoWoS-R,6 个 chiplet
PCIe PCIe 6.0 + CXL 3.0

Vera 的 6-chiplet 封装剖析

graph TB
  subgraph CoWoS-R封装
    COMPUTE[计算 die<br/>3nm<br/>88核 Olympus + NVLink-C2C]
    MEM1[LPDDR5 die 1]
    MEM2[LPDDR5 die 2]
    MEM3[LPDDR5 die 3]
    MEM4[LPDDR5 die 4]
    IO[PCIe 6.0 / CXL 3.0<br/>I/O die]
    COMPUTE --- MEM1
    COMPUTE --- MEM2
    COMPUTE --- MEM3
    COMPUTE --- MEM4
    COMPUTE --- IO
  end
  COMPUTE -- NVLink-C2C 1.8TB/s --> RUBIN[Rubin GPU]

NVIDIA 把内存 die 和 I/O die 从计算 die 中剥离,总计 1 枚计算 die + 4 枚 LPDDR5 die + 1 枚 I/O die = 6 chiplet,通过 CoWoS-R(Chip-on-Wafer-on-Substrate Reconstituted)封装在一起。

Olympus 核心:Grace 瓶颈的终结

NVIDIA 上一次自研 CPU 核是 8 年前的 Tegra Xavier(Carmel,10-wide 超标量)。Olympus 是新一代:

  • ARMv9.2 指令集,支持 ARM SVE2 FP8 运算
  • 浮点单元宽度从 Neoverse V2 的 4× 128-bit 扩展到 6× 128-bit
  • 原生 SMT 支持,88 核呈现为 176 线程
  • 彻底解决了 V2 的 BTB 分支预测瓶颈

Vera 整体性能目标:相较 Grace,NVIDIA 声称 Vera 实现 2× 性能提升

Vera Rubin Superchip

1
2
3
4
1× Vera CPU  +  2× Rubin GPU  → 1 个 VR200 Superchip
NVLink-C2C: 1.8 TB/s(双向)
CPU 内存: 1.5 TB LPDDR5
GPU 内存: Rubin HBM(规格待定)

Grace vs Vera 对比

NVIDIA Grace NVIDIA Vera
核心 Neoverse V2 Olympus(自研)
SMT
核数 / 线程 72 / 72 88 / 176
L2 缓存/核 1 MB 2 MB
L3 缓存 117 MB 162 MB
内存容量 480 GB 1.5 TB
内存带宽 >500 GB/s 1.2 TB/s
NVLink-C2C 900 GB/s 1.8 TB/s
封装 单 die + EMIB CoWoS-R,6 chiplet
配套 GPU Hopper / Blackwell Rubin
性能提升(vs 上代) 基线 ~2×

Vera 的意义不只是规格提升——它标志着 NVIDIA 彻底告别 ARM 授权核依赖,走向自研核路线,与 Apple(Firestorm/Everest)的逻辑如出一辙:当通用 ARM 核的性能不再满足需求,自己造。

Ampere AmpereOne:纯云原生 ARM

Ampere Computing 是 AppliedMicro X-Gene 团队的延续,由前 Intel 总裁 Renee James 创立,专做 ARM 服务器 CPU 卖给二级云厂商和企业。

代次 微架构 工艺 核数 内存 量产
eMAG A72/N1 衍生 16nm 32 8×DDR4-2667 2018
Altra Neoverse N1 7nm 80 8×DDR4-3200 2020
Altra Max Neoverse N1 7nm 128 8×DDR4-3200 2021
AmpereOne 自研 Ampere 核 5nm 192 8×DDR5-5200 2023
AmpereOne M 自研 5nm 192 12×DDR5-5600 2024
AmpereOne MX/Aurora 自研 + AI 待补充 256+ 12×DDR5 2025+

AmpereOne 的特点:

  • 专为云原生设计:每核独占 L2,不带 SMT,按租户隔离友好
  • 核数密度高:192 核(vs Intel SRF 288,AMD Bergamo 128)
  • 客户:Oracle Cloud(OCI 全平台 ARM 化)、Google Cloud(部分实例)、Microsoft Azure、Hetzner、字节跳动等

AmpereOne 是当前云市场最纯粹的 ARM 服务器 CPU——它不像 AWS Graviton 锁定单一厂商,是其他云厂商和企业自建 IDC 的可选方案。

待补充:AmpereOne MX/Aurora 的最新进度和 AI 加速器集成情况。

国际 ARM 服务器对比

Graviton 4 Graviton 5 Grace Vera AmpereOne M
核心 Neoverse V2 Neoverse V3 Neoverse V2 Olympus(自研) Ampere 自研
核数 96 192 72 88 192
SMT ✅(176线程)
内存类型 DDR5 DDR5-8800 LPDDR5X LPDDR5 SOCAMM DDR5
内存带宽 ~600 GB/s ~1.1 TB/s >500 GB/s 1.2 TB/s ~600 GB/s
内存容量上限 ~3 TB ~6 TB 480 GB 1.5 TB ~3 TB
GPU 互联 Trainium3 NVLink-C2C 900GB/s NVLink-C2C 1.8TB/s
主要用途 AWS 通用计算 AI head node + 通用 AI 训练/推理 Rubin GPU head node 通用云、容器密度
销售模式 AWS 自用 AWS 自用 NVIDIA 整机 NVIDIA 整机 公开销售

一张全景

graph TB
  ARM[ARMv8/v9 ISA]
  ARM --> AWS[AWS Graviton<br/>自研, 仅自用<br/>G5: 192核 Neoverse V3]
  ARM --> NV[NVIDIA Grace/Vera<br/>自研 Olympus 核, 配 GPU<br/>Vera: 88核 1.8TB/s C2C]
  ARM --> AC[Ampere One<br/>自研, 公开卖<br/>云原生 + 企业]
  ARM --> KP[华为鲲鹏<br/>自研, 中国市场<br/>通用 + 整机]
  ARM --> FT[飞腾<br/>自研, 党政市场<br/>合规 + 安可]
  ARM --> MS[Microsoft Cobalt 200<br/>自研 v9, Azure 自用<br/>132核 Neoverse V3]
  ARM --> GC[Google Axion<br/>自研 v9, GCP 自用<br/>96核 C4A]

值得关注的是 2024-2026 年涌现的 Microsoft Cobalt 200Google Axion——超大规模云厂商已经基本都”自研一颗 ARM 服务器 CPU”。这是 ARM 服务器进入主流的最强信号

待补充:Cobalt 200 和 Axion 在 Azure/GCP 上的实际部署占比。

ARM 服务器的现实约束

ARM 服务器并非”全方位优于 x86”,几个真实痛点:

痛点 说明
单线程绝对性能 仍稍弱于 Intel/AMD 旗舰,对老旧单线程业务不友好
AVX-512 / AMX 类指令 ARM SVE/SVE2/SME 仍在普及中,AI 推理生态弱于 Intel AMX
商业软件兼容 Oracle DB、SAP HANA 等仍以 x86 为主
生态碎片化 ARMv8、ARMv9、各家自定义扩展,需要根据具体核选编译

ARM 服务器最好的场景:云原生应用(容器、Java、Go、Python)、Web/API 服务、AI 推理(搭配 NPU/GPU)、HPC(搭配 SVE)、AI 训练集群 head node(Graviton5 / Vera)。

小结

  • ARM 服务器 2018 起从”白皮书”变成”AWS 一半新机型”
  • AWS Graviton 5(2026):192 核 Neoverse V3,TSMC 3nm,192 MB L3,12ch DDR5-8800,多 die 先进封装,同时担任 Trainium3 head node
  • NVIDIA Vera(2026):88 核自研 Olympus(ARMv9.2,SMT),NVLink-C2C 1.8 TB/s,1.5 TB LPDDR5,CoWoS-R 6 chiplet,配 Rubin GPU;Olympus 终结 Grace BTB 瓶颈,宣告 NVIDIA CPU 自研路线正式回归
  • 微软 Cobalt 200、Google Axion 加入战局,超大规模厂全部自研 ARM 服务器 CPU
  • 兼容性、单核性能、加速指令是 ARM 服务器仍存在的差距
  • 国内(鲲鹏 / 飞腾)走自己路,但和国际 ARM 阵营在指令集层面相通

下一篇回到微观——讲 CPU 的微架构核心概念:缓存、流水线、超标量、分支预测、SMT。

内容深度由贤狼赫萝于 2026-06-15 增补,引用来源:SemiAnalysis CPUs are Back 2026。