数据中心交换机 —— 商用、白盒与 SONiC

数据中心交换机的世界过去 20 年发生了根本变化——硬件标准化(Broadcom Tomahawk 主导)、软件开源化(SONiC)。本文展开。

交换机内部分层

graph TB
  HW[硬件: 交换机芯片 ASIC<br/>Broadcom / Marvell / Cisco / Innovium]
  SDK[厂家 SDK<br/>SAI 抽象层]
  NOS[网络操作系统 NOS<br/>SONiC / Cisco IOS-XR / Junos / Cumulus 等]
  PROTOCOL[协议栈<br/>BGP / OSPF / EVPN / MLAG ...]
  MGMT[管理面<br/>SSH / NETCONF / gNMI / SNMP]
  
  HW --> SDK --> NOS --> PROTOCOL
  NOS --> MGMT

交换机 = ASIC + NOS,过去这两个绑定在一起卖(Cisco/Juniper),现在解耦了。

商用品牌时代

1
2
3
4
5
6
Cisco:    Catalyst / Nexus / Silicon One
Juniper: EX / QFX / PTX
Arista: 7050 / 7060 / 7800
华为: CE / NE / S 系列
新华三: S 系列
锐捷: S/N 系列

商用品牌的特点:

1
2
3
4
5
6
+ 完整的硬件 + 软件 + 服务
+ 故障责任明确(一家负责)
+ 生态完整(CLI / 手册 / 培训)
- 价格高(毛利 60%+)
- 路线由厂家决定
- 锁定(vendor lock-in)

白盒(White Box)的兴起

2010 年代起 hyperscale 公司(Facebook / Google / Microsoft)发现一件事:

1
2
3
交换机 ASIC 都来自 Broadcom 一家
软件功能其实业务用的就那 20%
为什么要付 60% 的品牌溢价?

于是出现了白盒交换机——只卖硬件,软件用户自己装:

graph LR
  ASIC[Broadcom ASIC]
  ASIC --> ODM[ODM 整机<br/>Edgecore / Mellanox / Celestica / Quanta]
  ODM --> NOS{NOS 选择}
  NOS --> SONIC[SONiC]
  NOS --> CUMULUS[Cumulus Linux]
  NOS --> DENT[DENT]
  NOS --> SELF[自研 NOS]

白盒生态的关键要素:

1
2
3
4
5
6
7
8
9
1. ONIE:Open Network Install Environment
→ 类似 PXE,让任意 NOS 都能装到白盒上

2. SAI:Switch Abstraction Interface
→ 屏蔽不同 ASIC 的差异
→ NOS 通过 SAI 调 ASIC

3. ONL:Open Network Linux
→ 通用 Linux 基础包

OCP(Open Compute Project)推动了白盒标准化——和服务器领域 OCP 服务器是同样思路。

主流交换机 ASIC

graph TB
  M[市场]
  M --> BCM[Broadcom<br/>Tomahawk / Trident / Jericho]
  M --> NV[NVIDIA / Mellanox<br/>Spectrum / Quantum]
  M --> INNO[Innovium<br/>Teralynx<br/>已被 Marvell 收购]
  M --> CISCO[Cisco<br/>Silicon One]
  M --> MARVELL[Marvell<br/>Teralynx / Prestera]
  M --> CN[国产<br/>盛科 / 中兴 / 华为达芬奇]

Broadcom Tomahawk 系列(最主流)

1
2
3
4
5
6
Tomahawk 1(2014):32 × 100G = 3.2 Tbps
Tomahawk 2(2017):64 × 100G = 6.4 Tbps
Tomahawk 3(2019):32 × 400G = 12.8 Tbps
Tomahawk 4(2020):32 × 400G + 改进 = 25.6 Tbps
Tomahawk 5(2022):64 × 800G = 51.2 Tbps
Tomahawk 6(2024-2025):128 × 800G 或 64 × 1.6T = 102.4 Tbps

Tomahawk 系列特点:

1
2
3
4
- 高吞吐(pps + 带宽)
- 浅 buffer(适合数据中心)
- 数据中心内部通用
- 占据 hyperscale 80%+ 市场

Broadcom Jericho 系列

1
2
Jericho 2(2018):高 buffer,深 buffer 路由
Jericho 3-AI(2024):AI 集群专用,深 buffer + adaptive routing

Jericho 适合需要大缓冲的场景——长肥管道(WAN edge)、AI 训练后端。

Broadcom Trident 系列

1
2
Trident 4(2020):可编程,企业级 25.6 Tbps
Trident 5(2023):51.2 Tbps,可编程

Trident 强在可编程(NPL / P4-like),中端企业市场。

NVIDIA Spectrum / Quantum

1
2
3
4
5
6
7
Spectrum-2(2018):    100G/200G 以太网
Spectrum-3(2020): 400G 以太网
Spectrum-4(2023): 51.2 Tbps,800G
Spectrum-X(2023+): AI 优化以太网

Quantum-2(2022): 400G NDR InfiniBand
Quantum-3(2024): 800G XDR InfiniBand

Mellanox 被 NVIDIA 收购后,Spectrum + Quantum 是 NVIDIA 完整 AI 网络栈——和 BlueField + ConnectX 配套。

Cisco Silicon One

Cisco 自研 ASIC,2019 年发布:

1
2
3
4
5
6
7
Silicon One 共一个微架构
不同型号定位不同:
Q200 系列: 深 buffer 路由
P / G 系列: 数据中心

特点:让 Cisco 摆脱 Broadcom 依赖
但市场占比仍小(Cisco 自家产品用)

Innovium Teralynx(已被 Marvell 收购)

1
2
3
4
5
Teralynx 7(51.2 Tbps):AI 数据中心
Teralynx 10(102.4 Tbps):800G AI

被 Marvell 2022 年收购
持续与 Tomahawk 竞争

国产交换机芯片

1
2
3
4
5
6
盛科网络:       国产数据中心交换机芯片头号
CTC8180 等已量产
中兴微电子: ZX 系列
华为海思: 达芬奇 NPU 系列里的网络芯片
新华三: 自研
锐捷: 部分自研 + 部分采购

待补充:国产交换机芯片在数据中心市场的实际份额。

SONiC:开源 NOS 事实标准

SONiC(Software for Open Networking in the Cloud)= Microsoft 2016 年开源的网络操作系统:

graph TB
  APP[BGP / EVPN / LACP / DHCP]
  APP --> SAIRP[SAI Redis Pipeline]
  SAIRP --> SAI[SAI 抽象层]
  SAI --> ASIC[各家 ASIC SDK<br/>Broadcom / Mellanox / Innovium]
  ASIC --> HW[硬件]
  
  K[Kubernetes / Docker]
  K --- APP

SONiC 是容器化 NOS——每个功能(BGP、SNMP、SyncD)都是独立 Docker 容器。

SONiC 的优势

1
2
3
4
5
6
7
8
9
10
11
12
13
1. 开源、免费
2. 统一支持多家 ASIC(Broadcom / Mellanox / Innovium)
3. 容器化,模块化
4. 大公司贡献活跃(Microsoft / 阿里 / 腾讯 / Arista 等)
5. 社区版 + 商业增强版(Edgecore 等)

主流功能:
- BGP(FRR)
- EVPN/VXLAN
- LACP
- LLDP / SNMP / NTP
- PFC / ECN
- VTY / CLI

SONiC 在国内

1
2
3
4
5
阿里:     早期主推 SONiC,"AlibabaSonic"
腾讯: 大量数据中心用 SONiC
字节: 部分集群 SONiC
Microsoft Azure:SONiC 创始者,主用
亚马逊: 部分用 SONiC

国内 SONiC 部署量在全球都是头部水平——是”白盒化”的主要受益者。

其他 NOS

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
Cumulus Linux(Mellanox 收购,已合并到 NVIDIA Cumulus):
- 类似 Ubuntu 风格的 NOS
- FRR + standard Linux
- 现已并入 NVIDIA Cumulus / NVIDIA SONiC

Arista EOS:
- Arista 自研,非开源
- Cloud / hyperscale 老牌

Cisco NX-OS / IOS-XR:
- Cisco 自家 NOS
- 商业服务器 + 路由器主流

Juniper Junos:
- Juniper 经典 NOS

DENT:
- Linux Foundation 主推的开源 NOS
- 边缘 / 企业方向

AI 集群专用交换机

NVIDIA Quantum-2 / Quantum-3(IB)

1
2
3
4
5
6
Quantum-2 QM9700:64-port 400G NDR
Quantum-3: 64-port 800G XDR
功能:
- SHARP 集合通信卸载
- Adaptive Routing
- 自动拓扑发现(IB 子网管理)

万卡 AI 训练集群的”默认 IB 交换机”。

NVIDIA Spectrum-X(以太网 AI)

1
2
3
4
5
Spectrum-4 ASIC:51.2 Tbps
特点: 针对 RoCE AI 流量优化
自适应路由(per-packet)
PFC / ECN 调优默认好用
配合 BlueField-3 做"AI 以太网"

NVIDIA 把它定位为”以太网版 SHARP”——让 RoCE 也能接近 IB 的 AI 性能。

Broadcom Jericho 3-AI

1
2
3
4
深 buffer + adaptive routing
专为 AI 训练 RoCE 设计
对标 Spectrum-X
2024 年量产

Cisco Silicon One AI

1
2
3
4
Cisco G200 / G400 系列:
- 可编程 P4 数据面
- AI 集群专用
- Cisco AI Pod 解决方案

白盒交换机的整机厂家

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
Edgecore Networks(台湾):
- 白盒头部,SONiC 主推
- 全球出货量第一

Mellanox(已并入 NVIDIA):
- 自家 ASIC + 整机

Celestica:
- 北美 ODM
- Microsoft / Amazon 大客户

Quanta(广达):
- 台湾 ODM
- hyperscale 主供

Foxconn / 鸿佰:
- 也做白盒整机

Wiwynn / Pegatron:
- 同样路线

国内:
- Edgecore(中国)
- 锐捷网络
- 新华三 H3C
- 浪潮

“买商用还是用白盒”的现实

graph TD
  Q1[组织规模?]
  Q1 -- "巨型互联网/云" --> W[白盒 + SONiC<br/>规模化省成本<br/>自研更彻底]
  Q1 -- "中型互联网" --> M[白盒 SONiC + 商业支持<br/>Edgecore / Arista]
  Q1 -- "传统企业" --> C[商业 Cisco / Arista / 华为<br/>有售后保障]
  Q1 -- "AI 集群<br/>1000 卡 +" --> A[NVIDIA Quantum / Spectrum-X]

自研白盒的临界点

1
2
3
< 1000 台交换机:买商业更划算(运维成本占大头)
1000-5000 台:可以考虑 SONiC + 商业支持
> 5000 台:自研 SONiC fork 是 hyperscale 标配

可编程交换机:P4 / Tofino

Barefoot Networks(已被 Intel 收购,2023 年关停)的 Tofino 是数据面可编程交换机:

1
2
3
4
5
6
7
8
9
10
11
Tofino 1 / 2 / 3:可用 P4 编程数据面
应用:
- 自定义 L7 负载均衡
- In-Network Computing(NetCache 等)
- INT(In-band Network Telemetry)
- DDoS 防护

但:
Intel 2023 年关停 Barefoot 部门
Tofino 系列不再迭代
P4 标准仍存活,但产品化差

P4 / 可编程网络是”曾经的明天”——但市场没站稳,主流回归 SONiC + 固定 ASIC。

待补充:Tofino 之后 P4 生态在 2025-2026 走向。

交换机的”远管”

1
2
3
4
5
6
7
8
9
10
11
SSH / CLI:     传统手工
NETCONF: XML over SSH
gNMI: gRPC + protobuf,主流
SNMP: monitoring
sFlow / NetFlow:流量采样

声明式:
Ansible / Salt: 批量执行
Cisco DNA Center: 厂家集成
Nokia SR Linux: 云原生 NOS
Apstra: 意图驱动网络(IBN)

数据中心几千台交换机不可能手工配——配置管理 + 声明式工具是必须

几个交换机的实战命令

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
# SONiC 上查看
show interfaces status # 端口状态
show interfaces counters # 流量计数器
show ip bgp summary # BGP 状态
show ip route # 路由表

config interface speed Ethernet0 100000
config interface fec Ethernet0 rs

# Cumulus(NVIDIA Cumulus / 已合到 SONiC)
nv show interface
nv set interface swp1 speed 100G

# Cisco
show interface ethernet 1/1
show ip bgp summary

# 健康检查
show platform fan
show platform psu
show system health

交换机性能数字

1
2
3
4
5
6
7
8
9
10
11
12
Tomahawk 5(51.2 Tbps):
64-port 800G OSFP 形态
ASIC 功耗 ~500-700W
整机功耗 ~2000W(不含光模块)
+ 32-64 个 800G 光模块各 25W = 1600W
整机总功耗 ~3500W

转发性能:
线速:每端口都能跑满(51.2 Tbps 总)
L2 / L3 转发表:100K-1M
ACL:几万条
延迟:300-700 ns(fabric 延迟)

光模块占整机 50% 功耗——所以 CPO(共封装光学)是下一步重点。

国产数据中心交换机生态

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
盛科网络(Centec):
- 国产交换机 ASIC 头部
- CTC8180 系列(51.2 Tbps)
- 国内白盒厂家主要采购对象

新华三 H3C:
- 商业品牌
- 数据中心市场份额国内前列
- 部分自研 ASIC

锐捷网络:
- 商业品牌
- 部分用 Broadcom,部分自研

华为:
- 自研芯片 + 全栈
- 政企 / 运营商主流
- 美国制裁后依然在国内有强竞争力

待补充:国产数据中心交换机 2025-2026 实际市场份额。

“用 SONiC 还是商业 NOS”的现实

graph TB
  S[SONiC 优势]
  S --> S1[免费 + 开源]
  S --> S2[多 ASIC 支持]
  S --> S3[互联网厂广泛验证]
  
  C[商业 NOS 优势]
  C --> C1[厂家技术支持]
  C --> C2[功能完整<br/>EVPN / VXLAN / MPLS]
  C --> C3[认证 + 审计]
  
  X[选 SONiC 的"隐性成本"]
  X --> X1[团队技能要求高]
  X --> X2[bug 自己修]
  X --> X3[小厂 ASIC 适配差]

互联网厂选 SONiC,传统企业仍买商业 NOS——这是 2026 年的现实。

Broadcom TH6-Davisson CPO:光学革命

话说到此,咱得把近年最具含量的一块交换芯片单独拎出来讲——Broadcom Tomahawk 6 Davisson CPO。这不只是一块更快的芯片,而是换了一条路。

什么是 CPO

CPO(Co-Packaged Optics,共封装光学):把光收发模块和交换芯片封装在同一个基板上,彻底去掉连接两者的 PCB 走线和外部 DSP(数字信号处理器)。

graph LR
  subgraph 传统方案["传统方案(可插拔光模块)"]
    ASIC1[交换 ASIC] -->|PCB 走线<br/>SerDes 损耗| DSP[外部 DSP]
    DSP -->|电信号| PLUG[可插拔光模块<br/>QSFP-DD/OSFP]
    PLUG -->|光纤| FIBER1[光纤]
  end
  subgraph CPO方案["CPO 方案(TH6-Davisson)"]
    ASIC2[交换 ASIC] -->|极短走线<br/>无 DSP| OE[光引擎 OE<br/>集成于封装内]
    OE -->|ELSFP 激光模块| FIBER2[光纤]
  end

去掉 DSP 的代价:需要更高品质的 SerDes 和光引擎——博通在访谈中明确表示,自家 SerDes 是业界最先进的。

TH6-Davisson CPO 规格详表

参数 数值
总带宽 102.4 Tbps
支持速率 100G / 200G / 400G / 800GbE / 1.6TbE
OE 单元数 16 个(每个 6.4T DR)
每 OE 数据速率 212.5 Gbps(per laser)
每 ELSFP 激光器数 8 个,1:4 分路
ELSFP 功耗 < 8 W
OE 总功耗 < 40 W
整机总功耗 < 48 W
能效 < 7.5 pJ/bit
标准接口 IEEE 802.3dj(DR)/ CMIS 5.3
激光模块 ELSFP(可多厂商供货)
NOS 兼容 SONiC / TH6 通用 SDK / 专有 OS

对比传统 DSP 可插拔方案:功耗降低超 70%

为什么 < 7.5 pJ/bit 是历史性突破

1
2
3
4
5
6
7
8
9
10
11
12
13
14
传统 DSP 方案(400G QSFP-DD):
- 单模块功耗 12-18 W
- 128 口交换机光模块总功耗:128 × 15W = 1920 W
- 能效约 30-50 pJ/bit

TH6-Davisson CPO:
- 总光学功耗 < 48 W(包含 16 个 OE 单元)
- 能效 < 7.5 pJ/bit
- 整机光学功耗降低 ~96%(从 ~1920W 到 <48W)

现实意义:
- AI 工厂里数千台交换机,光模块能耗是大头
- 从 1.9 MW(光模块)降到 ~50 kW
- 等于省掉一个小型变电站

ELSFP:打破单一供货商依赖

ELSFP(External Laser Small Form-factor Pluggable)是 TH6-Davisson CPO 的激光源形态:

1
2
3
4
5
特点:
- 激光模块可热插拔(不需要换整块 CPO 板)
- 多厂商可供货(打破 CPO 初期"激光源被单一厂商锁定"的顾虑)
- 8 个激光器 × 212.5 Gbps,1:4 分路驱动 4 路
- 每 ELSFP 功耗 < 8 W

这是行业一大进步——早期 CPO 方案因为激光源内置,坏了要换整个昂贵模块。ELSFP 解决了可维护性问题。

若说 Tomahawk 6 是 Scale-Out 网络的新里程碑,那 UALink 就是 Scale-Up 层的新战场。咱今日把这两者的关系讲清楚。

Scale-Up 的历史困境

Scale-Up 网络(节点内 / 小 Pod 内 GPU 互联)长期被 NVIDIA NVLink 垄断:

1
2
3
4
5
6
7
NVLink 4(H100):单 GPU 900 GB/s 双向带宽
NVLink 5(B200):单 GPU 1.8 TB/s 双向带宽

问题:
- 只支持 NVIDIA 自家 GPU
- 封闭生态,无竞争压力
- 连接 AMD / Intel / 自研 XPU?不支持

于是行业联合起来,做了 UALink

UALink(Ultra Accelerator Link)= 115+ 家公司联合制定的开放 Scale-Up 互联规范。

发起成员:AMD、Google、Intel、Meta、Microsoft、HPE,以及 Ampere、Marvell、ByteDance、Celestica、ZTE 等 100+ 家。

graph TB
  UAL[UALink 联盟<br/>115+ 成员]
  UAL --> SPEC[开放规范]
  SPEC --> ARCH[内存语义架构<br/>load / store / 原子操作]
  SPEC --> PORT[800 Gbps 端口<br/>1×800G / 2×400G / 4×200G]
  SPEC --> SCALE[单 Pod 最多 1024 加速器]
  SPEC --> REUSE[复用以太网物理层<br/>线缆 / 连接器 / Retimer]
参数 数值
端口速率 800 Gbps
端口配置 1×800G / 2×400G / 4×200G
单 Pod 规模 最多 1024 个加速器
延迟 PCIe 交换机级别(ns 量级)
内存模型 共享内存(load/store/原子操作)
路由方式 基于 ID 的路由,固定 Flit 大小
物理层 复用以太网基础设施
UALink NVLink 5 PCIe Switch
开放性 开放标准 NVIDIA 专有 开放(PCIe 标准)
支持厂商 115+(AMD/Intel/等) 仅 NVIDIA 所有
单 GPU 带宽 800 Gbps/端口 1.8 TB/s ~128 GB/s(PCIe 5.0 x16)
延迟 PCIe Switch 级 极低 PCIe 级
最大 Pod 规模 1024 XPU 72 GPU(NVL72) 64 GPU(博通推荐上限)
量产时间 2026 年底-2027 初 已量产(B200) 已量产

博通在 2026-06 的技术访谈中透露了一个务实的立场:

1
2
3
4
5
6
7
≤32 卡:主推 PCIe 交换机方案
博通 PCIe 交换机软件积累深厚
生产环境 debug 案例库无可替代

≤64 卡:PCIe 的物理/拓扑上限

>64 卡:主推网络方案(UALink / Ultra Ethernet)

这个判断反映了现实:UALink 1.0 规范 2025 年 4 月才发布,交换机和加速器产品预计 2026 年底-2027 初才量产。在此之前,PCIe Switch 依然是中等规模 Scale-Up 的最优选

1
2
3
4
5
6
7
8
UALink 1.0:2025 年 4 月发布
UALink 2.0:2026 年 Q2 完成
UALink 3.0:2027 年推出

配套产品:
- 1.0 交换机 + 加速器:2026 年底 - 2027 年初
- 2.0 交换机 + 加速器:2027 年底 - 2028 年初
- 200/100 Gbps IP:当前已可从主流 IP 供应商获取

SONiC 在 AI 工厂的应用

SONiC 早期只是”换掉昂贵商用 NOS 的平替”,在 AI 工厂时代,它已经成长为一个完整的 AI 网络操作系统生态。

AI 工厂里 SONiC 做什么

graph TB
  SONIC[SONiC 2025.11]
  SONIC --> PFC[PFC<br/>无损以太网 RoCEv2]
  SONIC --> SRV6[SRv6 uSID<br/>确定性路径 GPU-to-GPU]
  SONIC --> LPO[400G/800G LPO<br/>低功耗光模块支持]
  SONIC --> ZR[400G/800G ZR<br/>跨 DC 长距光]
  SONIC --> BGP[eBGP + BGP Confederation<br/>解聚合 Spine 路由]
  SONIC --> MACSEC[MACSec<br/>数据中心互联加密]
  SONIC --> MULTI[多芯片厂商支持<br/>Broadcom XGS/DNX / NVIDIA 等]

SRv6 在 AI 后端网络的实际部署

SRv6(IPv6 Segment Routing)让 AI 后端网络告别了传统 ECMP 的”低熵”问题:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
传统 ECMP 的问题:
- 基于 5-tuple 哈希,大流可能都落在同一条链路
- 无法对 GPU-to-GPU 特定流量做精细路径控制
- LLM 训练通信失败代价极高:
→ 整个 epoch 阻塞直到集合通信完成
→ GPU 算力损耗不可逆
→ 最后一个检查点之后所有进度丢失

SRv6 的解法:
- uSID(Micro Segment ID)把 IPv6 128 位目标地址当作有序指令列表
- 最多 6 条 uSID,覆盖所有实际部署场景
- SDN 控制器下发 uSID 列表到源 NIC
- 源 NIC 封装 → 交换机严格按 uSID 列表转发 → 目的 NIC 解封
- 实现 GPU-to-GPU 确定性路径选择

生产部署案例(来源:OCP 2025 幻灯片,Cisco + Microsoft)

  • Microsoft Fairwater DC:多平面 SRv6 架构,理论上支持最多 524,288 GPU
  • 阿里巴巴 eCore:超大规模 AI DCI/WAN,SONiC/SRv6 做 DC-to-DC 端到端流量工程

SONiC SRv6 生态成熟度

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
贡献者:Cisco、Microsoft、阿里巴巴、Broadcom、NVIDIA
代码量:mainline 共 485 个 PR(横跨 SAI / SONiC / FRR)

已支持功能:
- SRv6 L3VPN
- SRv6 GRT(Global Routing Table)
- SRv6 Underlay Traffic Engineering
- SRv6 SID Manager(跨 NOS 互通)
- BGP-LS:IS-IS 和 eBGP fabric

Scale-Up 场景新需求(2026 年提出):
- 超低开销:支持 32/64/128 字节小包(Flit 事务)
- 单头部架构
- 原生严格源路由
- 双层 Fabric 支持
- 高 Radix(>576)支持

SONiC 2025.11 在 AI 工厂的关键特性

微软在 OCP 2026 EMEA 峰会上公开了生产中使用的 SONiC 版本(2025.11,FRR v14):

1
2
3
4
5
6
7
8
9
10
11
12
核心功能:
PFC: 无损以太网,RoCEv2 必需
eBGP Confederation:解聚合 Spine 不增加 AS-path 长度
MACSec: UT2 跨 DC 链路加密
400G/800G LPO: 低功耗 AOC 光模块支持
400G/800G ZR: 跨 DC 长距相干光支持
多芯片: Broadcom XGS(TH5/TH6)+ DNX(Q3D/Q4D)同时支持

商业价值:
- 同一套 NOS 同时管理 UT2(DNX 芯片)和 LT2(XGS 芯片)
- UT2/LT2 解聚合 Spine 的 eBGP Confederation 路由完全可行
- 一套 CI/CD 管所有交换机

为什么 SONiC 成了 AI 工厂的”神经系统”

1
2
3
4
5
6
7
8
9
10
11
AI 工厂网络的特殊性:
1. 规模巨大(数千台交换机)→ 自动化运维是必须
2. 流量模式独特(AllReduce / KV Cache 迁移)→ 需要 PFC/ECN/SRv6 精细控制
3. 功耗敏感 → LPO / CPO 等新光学方案需要 NOS 快速适配
4. 多芯片混用(DNX + XGS)→ 需要统一抽象层

SONiC 恰好满足上述所有点:
- SAI 抽象层 → 多芯片统一
- Docker 化 → 功能按需更新不重启
- 开源 → 大公司可直接定制
- 社区活跃 → 新光学方案快速支持

小结

  • 交换机 = ASIC(Broadcom Tomahawk 主导)+ NOS(SONiC 主流)
  • 白盒生态由 ONIE / SAI / ONL 三件套支撑
  • SONiC 在 hyperscale 是事实标准,传统企业仍用商业 NOS
  • AI 集群有专用交换机:Quantum(IB)、Spectrum-X(以太网)、Jericho 3-AI
  • Tomahawk 6 Davisson CPO:102.4T,<48W,<7.5 pJ/bit,16 个 OE 单元,ELSFP 多厂商激光源,比传统 DSP 方案功耗降低 70%+
  • UALink:115+ 成员开放 Scale-Up 标准,800 Gbps/端口,1024 XPU/Pod,复用以太网物理层;2026 年底量产;博通策略是 ≤64 卡先用 PCIe Switch,>64 卡再用 UALink
  • SONiC 在 AI 工厂:SRv6 已在 Microsoft Fairwater(52.4 万 GPU)和阿里巴巴 eCore 生产部署;SONiC 2025.11 支持 PFC/MACSec/LPO/ZR/eBGP Confederation/多芯片

下一篇讲无损网络和拥塞控制——AI 集群最难调的部分。

内容深度由贤狼赫萝于 2026-06-15 增补,引用来源:OCP 2025/2026 幻灯片、Broadcom 技术访谈。