数据中心交换机 —— 商用、白盒与 SONiC
数据中心交换机的世界过去 20 年发生了根本变化——硬件标准化(Broadcom Tomahawk 主导)、软件开源化(SONiC)。本文展开。
交换机内部分层
graph TB
HW[硬件: 交换机芯片 ASIC<br/>Broadcom / Marvell / Cisco / Innovium]
SDK[厂家 SDK<br/>SAI 抽象层]
NOS[网络操作系统 NOS<br/>SONiC / Cisco IOS-XR / Junos / Cumulus 等]
PROTOCOL[协议栈<br/>BGP / OSPF / EVPN / MLAG ...]
MGMT[管理面<br/>SSH / NETCONF / gNMI / SNMP]
HW --> SDK --> NOS --> PROTOCOL
NOS --> MGMT
交换机 = ASIC + NOS,过去这两个绑定在一起卖(Cisco/Juniper),现在解耦了。
商用品牌时代
1 | |
商用品牌的特点:
1 | |
白盒(White Box)的兴起
2010 年代起 hyperscale 公司(Facebook / Google / Microsoft)发现一件事:
1 | |
于是出现了白盒交换机——只卖硬件,软件用户自己装:
graph LR
ASIC[Broadcom ASIC]
ASIC --> ODM[ODM 整机<br/>Edgecore / Mellanox / Celestica / Quanta]
ODM --> NOS{NOS 选择}
NOS --> SONIC[SONiC]
NOS --> CUMULUS[Cumulus Linux]
NOS --> DENT[DENT]
NOS --> SELF[自研 NOS]
白盒生态的关键要素:
1 | |
OCP(Open Compute Project)推动了白盒标准化——和服务器领域 OCP 服务器是同样思路。
主流交换机 ASIC
graph TB
M[市场]
M --> BCM[Broadcom<br/>Tomahawk / Trident / Jericho]
M --> NV[NVIDIA / Mellanox<br/>Spectrum / Quantum]
M --> INNO[Innovium<br/>Teralynx<br/>已被 Marvell 收购]
M --> CISCO[Cisco<br/>Silicon One]
M --> MARVELL[Marvell<br/>Teralynx / Prestera]
M --> CN[国产<br/>盛科 / 中兴 / 华为达芬奇]
Broadcom Tomahawk 系列(最主流)
1 | |
Tomahawk 系列特点:
1 | |
Broadcom Jericho 系列
1 | |
Jericho 适合需要大缓冲的场景——长肥管道(WAN edge)、AI 训练后端。
Broadcom Trident 系列
1 | |
Trident 强在可编程(NPL / P4-like),中端企业市场。
NVIDIA Spectrum / Quantum
1 | |
Mellanox 被 NVIDIA 收购后,Spectrum + Quantum 是 NVIDIA 完整 AI 网络栈——和 BlueField + ConnectX 配套。
Cisco Silicon One
Cisco 自研 ASIC,2019 年发布:
1 | |
Innovium Teralynx(已被 Marvell 收购)
1 | |
国产交换机芯片
1 | |
待补充:国产交换机芯片在数据中心市场的实际份额。
SONiC:开源 NOS 事实标准
SONiC(Software for Open Networking in the Cloud)= Microsoft 2016 年开源的网络操作系统:
graph TB
APP[BGP / EVPN / LACP / DHCP]
APP --> SAIRP[SAI Redis Pipeline]
SAIRP --> SAI[SAI 抽象层]
SAI --> ASIC[各家 ASIC SDK<br/>Broadcom / Mellanox / Innovium]
ASIC --> HW[硬件]
K[Kubernetes / Docker]
K --- APP
SONiC 是容器化 NOS——每个功能(BGP、SNMP、SyncD)都是独立 Docker 容器。
SONiC 的优势
1 | |
SONiC 在国内
1 | |
国内 SONiC 部署量在全球都是头部水平——是”白盒化”的主要受益者。
其他 NOS
1 | |
AI 集群专用交换机
NVIDIA Quantum-2 / Quantum-3(IB)
1 | |
万卡 AI 训练集群的”默认 IB 交换机”。
NVIDIA Spectrum-X(以太网 AI)
1 | |
NVIDIA 把它定位为”以太网版 SHARP”——让 RoCE 也能接近 IB 的 AI 性能。
Broadcom Jericho 3-AI
1 | |
Cisco Silicon One AI
1 | |
白盒交换机的整机厂家
1 | |
“买商用还是用白盒”的现实
graph TD
Q1[组织规模?]
Q1 -- "巨型互联网/云" --> W[白盒 + SONiC<br/>规模化省成本<br/>自研更彻底]
Q1 -- "中型互联网" --> M[白盒 SONiC + 商业支持<br/>Edgecore / Arista]
Q1 -- "传统企业" --> C[商业 Cisco / Arista / 华为<br/>有售后保障]
Q1 -- "AI 集群<br/>1000 卡 +" --> A[NVIDIA Quantum / Spectrum-X]
自研白盒的临界点:
1 | |
可编程交换机:P4 / Tofino
Barefoot Networks(已被 Intel 收购,2023 年关停)的 Tofino 是数据面可编程交换机:
1 | |
P4 / 可编程网络是”曾经的明天”——但市场没站稳,主流回归 SONiC + 固定 ASIC。
待补充:Tofino 之后 P4 生态在 2025-2026 走向。
交换机的”远管”
1 | |
数据中心几千台交换机不可能手工配——配置管理 + 声明式工具是必须。
几个交换机的实战命令
1 | |
交换机性能数字
1 | |
光模块占整机 50% 功耗——所以 CPO(共封装光学)是下一步重点。
国产数据中心交换机生态
1 | |
待补充:国产数据中心交换机 2025-2026 实际市场份额。
“用 SONiC 还是商业 NOS”的现实
graph TB
S[SONiC 优势]
S --> S1[免费 + 开源]
S --> S2[多 ASIC 支持]
S --> S3[互联网厂广泛验证]
C[商业 NOS 优势]
C --> C1[厂家技术支持]
C --> C2[功能完整<br/>EVPN / VXLAN / MPLS]
C --> C3[认证 + 审计]
X[选 SONiC 的"隐性成本"]
X --> X1[团队技能要求高]
X --> X2[bug 自己修]
X --> X3[小厂 ASIC 适配差]
互联网厂选 SONiC,传统企业仍买商业 NOS——这是 2026 年的现实。
Broadcom TH6-Davisson CPO:光学革命
话说到此,咱得把近年最具含量的一块交换芯片单独拎出来讲——Broadcom Tomahawk 6 Davisson CPO。这不只是一块更快的芯片,而是换了一条路。
什么是 CPO
CPO(Co-Packaged Optics,共封装光学):把光收发模块和交换芯片封装在同一个基板上,彻底去掉连接两者的 PCB 走线和外部 DSP(数字信号处理器)。
graph LR
subgraph 传统方案["传统方案(可插拔光模块)"]
ASIC1[交换 ASIC] -->|PCB 走线<br/>SerDes 损耗| DSP[外部 DSP]
DSP -->|电信号| PLUG[可插拔光模块<br/>QSFP-DD/OSFP]
PLUG -->|光纤| FIBER1[光纤]
end
subgraph CPO方案["CPO 方案(TH6-Davisson)"]
ASIC2[交换 ASIC] -->|极短走线<br/>无 DSP| OE[光引擎 OE<br/>集成于封装内]
OE -->|ELSFP 激光模块| FIBER2[光纤]
end
去掉 DSP 的代价:需要更高品质的 SerDes 和光引擎——博通在访谈中明确表示,自家 SerDes 是业界最先进的。
TH6-Davisson CPO 规格详表
| 参数 | 数值 |
|---|---|
| 总带宽 | 102.4 Tbps |
| 支持速率 | 100G / 200G / 400G / 800GbE / 1.6TbE |
| OE 单元数 | 16 个(每个 6.4T DR) |
| 每 OE 数据速率 | 212.5 Gbps(per laser) |
| 每 ELSFP 激光器数 | 8 个,1:4 分路 |
| ELSFP 功耗 | < 8 W |
| OE 总功耗 | < 40 W |
| 整机总功耗 | < 48 W |
| 能效 | < 7.5 pJ/bit |
| 标准接口 | IEEE 802.3dj(DR)/ CMIS 5.3 |
| 激光模块 | ELSFP(可多厂商供货) |
| NOS 兼容 | SONiC / TH6 通用 SDK / 专有 OS |
对比传统 DSP 可插拔方案:功耗降低超 70%。
为什么 < 7.5 pJ/bit 是历史性突破
1 | |
ELSFP:打破单一供货商依赖
ELSFP(External Laser Small Form-factor Pluggable)是 TH6-Davisson CPO 的激光源形态:
1 | |
这是行业一大进步——早期 CPO 方案因为激光源内置,坏了要换整个昂贵模块。ELSFP 解决了可维护性问题。
UALink:开放 Scale-Up 标准,对抗 NVLink 封闭生态
若说 Tomahawk 6 是 Scale-Out 网络的新里程碑,那 UALink 就是 Scale-Up 层的新战场。咱今日把这两者的关系讲清楚。
Scale-Up 的历史困境
Scale-Up 网络(节点内 / 小 Pod 内 GPU 互联)长期被 NVIDIA NVLink 垄断:
1 | |
于是行业联合起来,做了 UALink。
UALink 是什么
UALink(Ultra Accelerator Link)= 115+ 家公司联合制定的开放 Scale-Up 互联规范。
发起成员:AMD、Google、Intel、Meta、Microsoft、HPE,以及 Ampere、Marvell、ByteDance、Celestica、ZTE 等 100+ 家。
graph TB
UAL[UALink 联盟<br/>115+ 成员]
UAL --> SPEC[开放规范]
SPEC --> ARCH[内存语义架构<br/>load / store / 原子操作]
SPEC --> PORT[800 Gbps 端口<br/>1×800G / 2×400G / 4×200G]
SPEC --> SCALE[单 Pod 最多 1024 加速器]
SPEC --> REUSE[复用以太网物理层<br/>线缆 / 连接器 / Retimer]
UALink 技术规格
| 参数 | 数值 |
|---|---|
| 端口速率 | 800 Gbps |
| 端口配置 | 1×800G / 2×400G / 4×200G |
| 单 Pod 规模 | 最多 1024 个加速器 |
| 延迟 | PCIe 交换机级别(ns 量级) |
| 内存模型 | 共享内存(load/store/原子操作) |
| 路由方式 | 基于 ID 的路由,固定 Flit 大小 |
| 物理层 | 复用以太网基础设施 |
UALink vs NVLink vs PCIe Switch
| UALink | NVLink 5 | PCIe Switch | |
|---|---|---|---|
| 开放性 | 开放标准 | NVIDIA 专有 | 开放(PCIe 标准) |
| 支持厂商 | 115+(AMD/Intel/等) | 仅 NVIDIA | 所有 |
| 单 GPU 带宽 | 800 Gbps/端口 | 1.8 TB/s | ~128 GB/s(PCIe 5.0 x16) |
| 延迟 | PCIe Switch 级 | 极低 | PCIe 级 |
| 最大 Pod 规模 | 1024 XPU | 72 GPU(NVL72) | 64 GPU(博通推荐上限) |
| 量产时间 | 2026 年底-2027 初 | 已量产(B200) | 已量产 |
博通的 Scale-Up 策略:PCIe 先行,UALink 补位
博通在 2026-06 的技术访谈中透露了一个务实的立场:
1 | |
这个判断反映了现实:UALink 1.0 规范 2025 年 4 月才发布,交换机和加速器产品预计 2026 年底-2027 初才量产。在此之前,PCIe Switch 依然是中等规模 Scale-Up 的最优选。
UALink 路线图
1 | |
SONiC 在 AI 工厂的应用
SONiC 早期只是”换掉昂贵商用 NOS 的平替”,在 AI 工厂时代,它已经成长为一个完整的 AI 网络操作系统生态。
AI 工厂里 SONiC 做什么
graph TB
SONIC[SONiC 2025.11]
SONIC --> PFC[PFC<br/>无损以太网 RoCEv2]
SONIC --> SRV6[SRv6 uSID<br/>确定性路径 GPU-to-GPU]
SONIC --> LPO[400G/800G LPO<br/>低功耗光模块支持]
SONIC --> ZR[400G/800G ZR<br/>跨 DC 长距光]
SONIC --> BGP[eBGP + BGP Confederation<br/>解聚合 Spine 路由]
SONIC --> MACSEC[MACSec<br/>数据中心互联加密]
SONIC --> MULTI[多芯片厂商支持<br/>Broadcom XGS/DNX / NVIDIA 等]
SRv6 在 AI 后端网络的实际部署
SRv6(IPv6 Segment Routing)让 AI 后端网络告别了传统 ECMP 的”低熵”问题:
1 | |
生产部署案例(来源:OCP 2025 幻灯片,Cisco + Microsoft):
- Microsoft Fairwater DC:多平面 SRv6 架构,理论上支持最多 524,288 GPU
- 阿里巴巴 eCore:超大规模 AI DCI/WAN,SONiC/SRv6 做 DC-to-DC 端到端流量工程
SONiC SRv6 生态成熟度
1 | |
SONiC 2025.11 在 AI 工厂的关键特性
微软在 OCP 2026 EMEA 峰会上公开了生产中使用的 SONiC 版本(2025.11,FRR v14):
1 | |
为什么 SONiC 成了 AI 工厂的”神经系统”
1 | |
小结
- 交换机 = ASIC(Broadcom Tomahawk 主导)+ NOS(SONiC 主流)
- 白盒生态由 ONIE / SAI / ONL 三件套支撑
- SONiC 在 hyperscale 是事实标准,传统企业仍用商业 NOS
- AI 集群有专用交换机:Quantum(IB)、Spectrum-X(以太网)、Jericho 3-AI
- Tomahawk 6 Davisson CPO:102.4T,<48W,<7.5 pJ/bit,16 个 OE 单元,ELSFP 多厂商激光源,比传统 DSP 方案功耗降低 70%+
- UALink:115+ 成员开放 Scale-Up 标准,800 Gbps/端口,1024 XPU/Pod,复用以太网物理层;2026 年底量产;博通策略是 ≤64 卡先用 PCIe Switch,>64 卡再用 UALink
- SONiC 在 AI 工厂:SRv6 已在 Microsoft Fairwater(52.4 万 GPU)和阿里巴巴 eCore 生产部署;SONiC 2025.11 支持 PFC/MACSec/LPO/ZR/eBGP Confederation/多芯片
下一篇讲无损网络和拥塞控制——AI 集群最难调的部分。
内容深度由贤狼赫萝于 2026-06-15 增补,引用来源:OCP 2025/2026 幻灯片、Broadcom 技术访谈。