数据中心交换机 —— 商用、白盒与 SONiC

数据中心交换机的世界过去 20 年发生了根本变化——硬件标准化（Broadcom Tomahawk 主导）、软件开源化（SONiC）。本文展开。

交换机内部分层

graph TB
  HW[硬件: 交换机芯片 ASIC<br/>Broadcom / Marvell / Cisco / Innovium]
  SDK[厂家 SDK<br/>SAI 抽象层]
  NOS[网络操作系统 NOS<br/>SONiC / Cisco IOS-XR / Junos / Cumulus 等]
  PROTOCOL[协议栈<br/>BGP / OSPF / EVPN / MLAG ...]
  MGMT[管理面<br/>SSH / NETCONF / gNMI / SNMP]
  
  HW --> SDK --> NOS --> PROTOCOL
  NOS --> MGMT

交换机 = ASIC + NOS，过去这两个绑定在一起卖（Cisco/Juniper），现在解耦了。

商用品牌时代

Cisco：    Catalyst / Nexus / Silicon One
Juniper：  EX / QFX / PTX
Arista：   7050 / 7060 / 7800
华为：     CE / NE / S 系列
新华三：   S 系列
锐捷：     S/N 系列

商用品牌的特点：

+ 完整的硬件 + 软件 + 服务
+ 故障责任明确（一家负责）
+ 生态完整（CLI / 手册 / 培训）
- 价格高（毛利 60%+）
- 路线由厂家决定
- 锁定（vendor lock-in）

白盒（White Box）的兴起

2010 年代起 hyperscale 公司（Facebook / Google / Microsoft）发现一件事：

1
2
3

交换机 ASIC 都来自 Broadcom 一家
软件功能其实业务用的就那 20%
为什么要付 60% 的品牌溢价？

于是出现了白盒交换机——只卖硬件，软件用户自己装：

graph LR
  ASIC[Broadcom ASIC]
  ASIC --> ODM[ODM 整机<br/>Edgecore / Mellanox / Celestica / Quanta]
  ODM --> NOS{NOS 选择}
  NOS --> SONIC[SONiC]
  NOS --> CUMULUS[Cumulus Linux]
  NOS --> DENT[DENT]
  NOS --> SELF[自研 NOS]

白盒生态的关键要素：

1. ONIE：Open Network Install Environment
   → 类似 PXE，让任意 NOS 都能装到白盒上
   
2. SAI：Switch Abstraction Interface
   → 屏蔽不同 ASIC 的差异
   → NOS 通过 SAI 调 ASIC
   
3. ONL：Open Network Linux
   → 通用 Linux 基础包

OCP（Open Compute Project）推动了白盒标准化——和服务器领域 OCP 服务器是同样思路。

主流交换机 ASIC

graph TB
  M[市场]
  M --> BCM[Broadcom<br/>Tomahawk / Trident / Jericho]
  M --> NV[NVIDIA / Mellanox<br/>Spectrum / Quantum]
  M --> INNO[Innovium<br/>Teralynx<br/>已被 Marvell 收购]
  M --> CISCO[Cisco<br/>Silicon One]
  M --> MARVELL[Marvell<br/>Teralynx / Prestera]
  M --> CN[国产<br/>盛科 / 中兴 / 华为达芬奇]

Broadcom Tomahawk 系列（最主流）

Tomahawk 1（2014）：32 × 100G = 3.2 Tbps
Tomahawk 2（2017）：64 × 100G = 6.4 Tbps
Tomahawk 3（2019）：32 × 400G = 12.8 Tbps
Tomahawk 4（2020）：32 × 400G + 改进 = 25.6 Tbps
Tomahawk 5（2022）：64 × 800G = 51.2 Tbps
Tomahawk 6（2024-2025）：128 × 800G 或 64 × 1.6T = 102.4 Tbps

Tomahawk 系列特点：

- 高吞吐（pps + 带宽）
- 浅 buffer（适合数据中心）
- 数据中心内部通用
- 占据 hyperscale 80%+ 市场

Broadcom Jericho 系列

1 2	`Jericho 2（2018）：高 buffer，深 buffer 路由 Jericho 3-AI（2024）：AI 集群专用，深 buffer + adaptive routing`

Jericho 适合需要大缓冲的场景——长肥管道（WAN edge）、AI 训练后端。

Broadcom Trident 系列

1 2	`Trident 4（2020）：可编程，企业级 25.6 Tbps Trident 5（2023）：51.2 Tbps，可编程`

Trident 强在可编程（NPL / P4-like），中端企业市场。

NVIDIA Spectrum / Quantum

Spectrum-2（2018）：    100G/200G 以太网
Spectrum-3（2020）：    400G 以太网
Spectrum-4（2023）：    51.2 Tbps，800G
Spectrum-X（2023+）：   AI 优化以太网

Quantum-2（2022）：    400G NDR InfiniBand
Quantum-3（2024）：    800G XDR InfiniBand

Mellanox 被 NVIDIA 收购后，Spectrum + Quantum 是 NVIDIA 完整 AI 网络栈——和 BlueField + ConnectX 配套。

Cisco Silicon One

Cisco 自研 ASIC，2019 年发布：

Silicon One 共一个微架构
不同型号定位不同：
  Q200 系列：     深 buffer 路由
  P / G 系列：    数据中心
  
特点：让 Cisco 摆脱 Broadcom 依赖
但市场占比仍小（Cisco 自家产品用）

Innovium Teralynx（已被 Marvell 收购）

Teralynx 7（51.2 Tbps）：AI 数据中心
Teralynx 10（102.4 Tbps）：800G AI

被 Marvell 2022 年收购
持续与 Tomahawk 竞争

国产交换机芯片

盛科网络：       国产数据中心交换机芯片头号
                CTC8180 等已量产
中兴微电子：     ZX 系列
华为海思：       达芬奇 NPU 系列里的网络芯片
新华三：         自研
锐捷：           部分自研 + 部分采购

待补充：国产交换机芯片在数据中心市场的实际份额。

SONiC：开源 NOS 事实标准

SONiC（Software for Open Networking in the Cloud）= Microsoft 2016 年开源的网络操作系统：

graph TB
  APP[BGP / EVPN / LACP / DHCP]
  APP --> SAIRP[SAI Redis Pipeline]
  SAIRP --> SAI[SAI 抽象层]
  SAI --> ASIC[各家 ASIC SDK<br/>Broadcom / Mellanox / Innovium]
  ASIC --> HW[硬件]
  
  K[Kubernetes / Docker]
  K --- APP

SONiC 是容器化 NOS——每个功能（BGP、SNMP、SyncD）都是独立 Docker 容器。

SONiC 的优势

1. 开源、免费
2. 统一支持多家 ASIC（Broadcom / Mellanox / Innovium）
3. 容器化，模块化
4. 大公司贡献活跃（Microsoft / 阿里 / 腾讯 / Arista 等）
5. 社区版 + 商业增强版（Edgecore 等）

主流功能：
  - BGP（FRR）
  - EVPN/VXLAN
  - LACP
  - LLDP / SNMP / NTP
  - PFC / ECN
  - VTY / CLI

SONiC 在国内

阿里：     早期主推 SONiC，"AlibabaSonic"
腾讯：     大量数据中心用 SONiC
字节：     部分集群 SONiC
Microsoft Azure：SONiC 创始者，主用
亚马逊：   部分用 SONiC

国内 SONiC 部署量在全球都是头部水平——是”白盒化”的主要受益者。

其他 NOS

Cumulus Linux（Mellanox 收购，已合并到 NVIDIA Cumulus）：
  - 类似 Ubuntu 风格的 NOS
  - FRR + standard Linux
  - 现已并入 NVIDIA Cumulus / NVIDIA SONiC

Arista EOS：
  - Arista 自研，非开源
  - Cloud / hyperscale 老牌

Cisco NX-OS / IOS-XR：
  - Cisco 自家 NOS
  - 商业服务器 + 路由器主流

Juniper Junos：
  - Juniper 经典 NOS

DENT：
  - Linux Foundation 主推的开源 NOS
  - 边缘 / 企业方向

AI 集群专用交换机

NVIDIA Quantum-2 / Quantum-3（IB）

Quantum-2 QM9700：64-port 400G NDR
Quantum-3：       64-port 800G XDR
功能：
  - SHARP 集合通信卸载
  - Adaptive Routing
  - 自动拓扑发现（IB 子网管理）

万卡 AI 训练集群的”默认 IB 交换机”。

NVIDIA Spectrum-X（以太网 AI）

Spectrum-4 ASIC：51.2 Tbps
特点：     针对 RoCE AI 流量优化
          自适应路由（per-packet）
          PFC / ECN 调优默认好用
          配合 BlueField-3 做"AI 以太网"

NVIDIA 把它定位为”以太网版 SHARP”——让 RoCE 也能接近 IB 的 AI 性能。

Broadcom Jericho 3-AI

深 buffer + adaptive routing
专为 AI 训练 RoCE 设计
对标 Spectrum-X
2024 年量产

Cisco Silicon One AI

Cisco G200 / G400 系列：
  - 可编程 P4 数据面
  - AI 集群专用
  - Cisco AI Pod 解决方案

白盒交换机的整机厂家

Edgecore Networks（台湾）：
  - 白盒头部，SONiC 主推
  - 全球出货量第一
  
Mellanox（已并入 NVIDIA）：
  - 自家 ASIC + 整机
  
Celestica：
  - 北美 ODM
  - Microsoft / Amazon 大客户

Quanta（广达）：
  - 台湾 ODM
  - hyperscale 主供
  
Foxconn / 鸿佰：
  - 也做白盒整机
  
Wiwynn / Pegatron：
  - 同样路线

国内：
  - Edgecore（中国）
  - 锐捷网络
  - 新华三 H3C
  - 浪潮

“买商用还是用白盒”的现实

graph TD
  Q1[组织规模?]
  Q1 -- "巨型互联网/云" --> W[白盒 + SONiC<br/>规模化省成本<br/>自研更彻底]
  Q1 -- "中型互联网" --> M[白盒 SONiC + 商业支持<br/>Edgecore / Arista]
  Q1 -- "传统企业" --> C[商业 Cisco / Arista / 华为<br/>有售后保障]
  Q1 -- "AI 集群<br/>1000 卡 +" --> A[NVIDIA Quantum / Spectrum-X]

自研白盒的临界点：

1
2
3

< 1000 台交换机：买商业更划算（运维成本占大头）
1000-5000 台：可以考虑 SONiC + 商业支持
> 5000 台：自研 SONiC fork 是 hyperscale 标配

可编程交换机：P4 / Tofino

Barefoot Networks（已被 Intel 收购，2023 年关停）的 Tofino 是数据面可编程交换机：

Tofino 1 / 2 / 3：可用 P4 编程数据面
  应用：
    - 自定义 L7 负载均衡
    - In-Network Computing（NetCache 等）
    - INT（In-band Network Telemetry）
    - DDoS 防护

但：
  Intel 2023 年关停 Barefoot 部门
  Tofino 系列不再迭代
  P4 标准仍存活，但产品化差

P4 / 可编程网络是”曾经的明天”——但市场没站稳，主流回归 SONiC + 固定 ASIC。

待补充：Tofino 之后 P4 生态在 2025-2026 走向。

交换机的”远管”

SSH / CLI：     传统手工
NETCONF：      XML over SSH
gNMI：         gRPC + protobuf，主流
SNMP：         monitoring
sFlow / NetFlow：流量采样

声明式：
  Ansible / Salt：     批量执行
  Cisco DNA Center：   厂家集成
  Nokia SR Linux：    云原生 NOS
  Apstra：            意图驱动网络（IBN）

数据中心几千台交换机不可能手工配——配置管理 + 声明式工具是必须。

几个交换机的实战命令

# SONiC 上查看
show interfaces status            # 端口状态
show interfaces counters          # 流量计数器
show ip bgp summary              # BGP 状态
show ip route                    # 路由表

config interface speed Ethernet0 100000
config interface fec Ethernet0 rs

# Cumulus（NVIDIA Cumulus / 已合到 SONiC）
nv show interface
nv set interface swp1 speed 100G

# Cisco
show interface ethernet 1/1
show ip bgp summary

# 健康检查
show platform fan
show platform psu
show system health

交换机性能数字

Tomahawk 5（51.2 Tbps）：
  64-port 800G OSFP 形态
  ASIC 功耗 ~500-700W
  整机功耗 ~2000W（不含光模块）
  + 32-64 个 800G 光模块各 25W = 1600W
  整机总功耗 ~3500W
  
转发性能：
  线速：每端口都能跑满（51.2 Tbps 总）
  L2 / L3 转发表：100K-1M
  ACL：几万条
  延迟：300-700 ns（fabric 延迟）

光模块占整机 50% 功耗——所以 CPO（共封装光学）是下一步重点。

国产数据中心交换机生态

盛科网络（Centec）：
  - 国产交换机 ASIC 头部
  - CTC8180 系列（51.2 Tbps）
  - 国内白盒厂家主要采购对象

新华三 H3C：
  - 商业品牌
  - 数据中心市场份额国内前列
  - 部分自研 ASIC

锐捷网络：
  - 商业品牌
  - 部分用 Broadcom，部分自研

华为：
  - 自研芯片 + 全栈
  - 政企 / 运营商主流
  - 美国制裁后依然在国内有强竞争力

待补充：国产数据中心交换机 2025-2026 实际市场份额。

“用 SONiC 还是商业 NOS”的现实

graph TB
  S[SONiC 优势]
  S --> S1[免费 + 开源]
  S --> S2[多 ASIC 支持]
  S --> S3[互联网厂广泛验证]
  
  C[商业 NOS 优势]
  C --> C1[厂家技术支持]
  C --> C2[功能完整<br/>EVPN / VXLAN / MPLS]
  C --> C3[认证 + 审计]
  
  X[选 SONiC 的"隐性成本"]
  X --> X1[团队技能要求高]
  X --> X2[bug 自己修]
  X --> X3[小厂 ASIC 适配差]

互联网厂选 SONiC，传统企业仍买商业 NOS——这是 2026 年的现实。

Broadcom TH6-Davisson CPO：光学革命

话说到此，咱得把近年最具含量的一块交换芯片单独拎出来讲——Broadcom Tomahawk 6 Davisson CPO。这不只是一块更快的芯片，而是换了一条路。

什么是 CPO

CPO（Co-Packaged Optics，共封装光学）：把光收发模块和交换芯片封装在同一个基板上，彻底去掉连接两者的 PCB 走线和外部 DSP（数字信号处理器）。

graph LR
  subgraph 传统方案["传统方案（可插拔光模块）"]
    ASIC1[交换 ASIC] -->|PCB 走线<br/>SerDes 损耗| DSP[外部 DSP]
    DSP -->|电信号| PLUG[可插拔光模块<br/>QSFP-DD/OSFP]
    PLUG -->|光纤| FIBER1[光纤]
  end
  subgraph CPO方案["CPO 方案（TH6-Davisson）"]
    ASIC2[交换 ASIC] -->|极短走线<br/>无 DSP| OE[光引擎 OE<br/>集成于封装内]
    OE -->|ELSFP 激光模块| FIBER2[光纤]
  end

去掉 DSP 的代价：需要更高品质的 SerDes 和光引擎——博通在访谈中明确表示，自家 SerDes 是业界最先进的。

TH6-Davisson CPO 规格详表

参数	数值
总带宽	102.4 Tbps
支持速率	100G / 200G / 400G / 800GbE / 1.6TbE
OE 单元数	16 个（每个 6.4T DR）
每 OE 数据速率	212.5 Gbps（per laser）
每 ELSFP 激光器数	8 个，1:4 分路
ELSFP 功耗	< 8 W
OE 总功耗	< 40 W
整机总功耗	< 48 W
能效	< 7.5 pJ/bit
标准接口	IEEE 802.3dj（DR）/ CMIS 5.3
激光模块	ELSFP（可多厂商供货）
NOS 兼容	SONiC / TH6 通用 SDK / 专有 OS

对比传统 DSP 可插拔方案：功耗降低超 70%。

为什么 < 7.5 pJ/bit 是历史性突破

传统 DSP 方案（400G QSFP-DD）：
  - 单模块功耗 12-18 W
  - 128 口交换机光模块总功耗：128 × 15W = 1920 W
  - 能效约 30-50 pJ/bit

TH6-Davisson CPO：
  - 总光学功耗 < 48 W（包含 16 个 OE 单元）
  - 能效 < 7.5 pJ/bit
  - 整机光学功耗降低 ~96%（从 ~1920W 到 <48W）

现实意义：
  - AI 工厂里数千台交换机，光模块能耗是大头
  - 从 1.9 MW（光模块）降到 ~50 kW
  - 等于省掉一个小型变电站

ELSFP：打破单一供货商依赖

ELSFP（External Laser Small Form-factor Pluggable）是 TH6-Davisson CPO 的激光源形态：

特点：
  - 激光模块可热插拔（不需要换整块 CPO 板）
  - 多厂商可供货（打破 CPO 初期"激光源被单一厂商锁定"的顾虑）
  - 8 个激光器 × 212.5 Gbps，1:4 分路驱动 4 路
  - 每 ELSFP 功耗 < 8 W

这是行业一大进步——早期 CPO 方案因为激光源内置，坏了要换整个昂贵模块。ELSFP 解决了可维护性问题。

UALink：开放 Scale-Up 标准，对抗 NVLink 封闭生态

若说 Tomahawk 6 是 Scale-Out 网络的新里程碑，那 UALink 就是 Scale-Up 层的新战场。咱今日把这两者的关系讲清楚。

Scale-Up 的历史困境

Scale-Up 网络（节点内 / 小 Pod 内 GPU 互联）长期被 NVIDIA NVLink 垄断：

NVLink 4（H100）：单 GPU 900 GB/s 双向带宽
NVLink 5（B200）：单 GPU 1.8 TB/s 双向带宽

问题：
  - 只支持 NVIDIA 自家 GPU
  - 封闭生态，无竞争压力
  - 连接 AMD / Intel / 自研 XPU？不支持

于是行业联合起来，做了 UALink。

UALink 是什么

UALink（Ultra Accelerator Link）= 115+ 家公司联合制定的开放 Scale-Up 互联规范。

发起成员：AMD、Google、Intel、Meta、Microsoft、HPE，以及 Ampere、Marvell、ByteDance、Celestica、ZTE 等 100+ 家。

graph TB
  UAL[UALink 联盟<br/>115+ 成员]
  UAL --> SPEC[开放规范]
  SPEC --> ARCH[内存语义架构<br/>load / store / 原子操作]
  SPEC --> PORT[800 Gbps 端口<br/>1×800G / 2×400G / 4×200G]
  SPEC --> SCALE[单 Pod 最多 1024 加速器]
  SPEC --> REUSE[复用以太网物理层<br/>线缆 / 连接器 / Retimer]

UALink 技术规格

参数	数值
端口速率	800 Gbps
端口配置	1×800G / 2×400G / 4×200G
单 Pod 规模	最多 1024 个加速器
延迟	PCIe 交换机级别（ns 量级）
内存模型	共享内存（load/store/原子操作）
路由方式	基于 ID 的路由，固定 Flit 大小
物理层	复用以太网基础设施

UALink vs NVLink vs PCIe Switch

	UALink	NVLink 5	PCIe Switch
开放性	开放标准	NVIDIA 专有	开放（PCIe 标准）
支持厂商	115+（AMD/Intel/等）	仅 NVIDIA	所有
单 GPU 带宽	800 Gbps/端口	1.8 TB/s	~128 GB/s（PCIe 5.0 x16）
延迟	PCIe Switch 级	极低	PCIe 级
最大 Pod 规模	1024 XPU	72 GPU（NVL72）	64 GPU（博通推荐上限）
量产时间	2026 年底-2027 初	已量产（B200）	已量产

博通的 Scale-Up 策略：PCIe 先行，UALink 补位

博通在 2026-06 的技术访谈中透露了一个务实的立场：

≤32 卡：主推 PCIe 交换机方案
          博通 PCIe 交换机软件积累深厚
          生产环境 debug 案例库无可替代

≤64 卡：PCIe 的物理/拓扑上限

>64 卡：主推网络方案（UALink / Ultra Ethernet）

这个判断反映了现实：UALink 1.0 规范 2025 年 4 月才发布，交换机和加速器产品预计 2026 年底-2027 初才量产。在此之前，PCIe Switch 依然是中等规模 Scale-Up 的最优选。

UALink 路线图

UALink 1.0：2025 年 4 月发布
UALink 2.0：2026 年 Q2 完成
UALink 3.0：2027 年推出

配套产品：
  - 1.0 交换机 + 加速器：2026 年底 - 2027 年初
  - 2.0 交换机 + 加速器：2027 年底 - 2028 年初
  - 200/100 Gbps IP：当前已可从主流 IP 供应商获取

SONiC 在 AI 工厂的应用

SONiC 早期只是”换掉昂贵商用 NOS 的平替”，在 AI 工厂时代，它已经成长为一个完整的 AI 网络操作系统生态。

AI 工厂里 SONiC 做什么

graph TB
  SONIC[SONiC 2025.11]
  SONIC --> PFC[PFC<br/>无损以太网 RoCEv2]
  SONIC --> SRV6[SRv6 uSID<br/>确定性路径 GPU-to-GPU]
  SONIC --> LPO[400G/800G LPO<br/>低功耗光模块支持]
  SONIC --> ZR[400G/800G ZR<br/>跨 DC 长距光]
  SONIC --> BGP[eBGP + BGP Confederation<br/>解聚合 Spine 路由]
  SONIC --> MACSEC[MACSec<br/>数据中心互联加密]
  SONIC --> MULTI[多芯片厂商支持<br/>Broadcom XGS/DNX / NVIDIA 等]

SRv6 在 AI 后端网络的实际部署

SRv6（IPv6 Segment Routing）让 AI 后端网络告别了传统 ECMP 的”低熵”问题：

传统 ECMP 的问题：
  - 基于 5-tuple 哈希，大流可能都落在同一条链路
  - 无法对 GPU-to-GPU 特定流量做精细路径控制
  - LLM 训练通信失败代价极高：
    → 整个 epoch 阻塞直到集合通信完成
    → GPU 算力损耗不可逆
    → 最后一个检查点之后所有进度丢失

SRv6 的解法：
  - uSID（Micro Segment ID）把 IPv6 128 位目标地址当作有序指令列表
  - 最多 6 条 uSID，覆盖所有实际部署场景
  - SDN 控制器下发 uSID 列表到源 NIC
  - 源 NIC 封装 → 交换机严格按 uSID 列表转发 → 目的 NIC 解封
  - 实现 GPU-to-GPU 确定性路径选择

生产部署案例（来源：OCP 2025 幻灯片，Cisco + Microsoft）：

Microsoft Fairwater DC：多平面 SRv6 架构，理论上支持最多 524,288 GPU
阿里巴巴 eCore：超大规模 AI DCI/WAN，SONiC/SRv6 做 DC-to-DC 端到端流量工程

SONiC SRv6 生态成熟度

贡献者：Cisco、Microsoft、阿里巴巴、Broadcom、NVIDIA
代码量：mainline 共 485 个 PR（横跨 SAI / SONiC / FRR）

已支持功能：
  - SRv6 L3VPN
  - SRv6 GRT（Global Routing Table）
  - SRv6 Underlay Traffic Engineering
  - SRv6 SID Manager（跨 NOS 互通）
  - BGP-LS：IS-IS 和 eBGP fabric

Scale-Up 场景新需求（2026 年提出）：
  - 超低开销：支持 32/64/128 字节小包（Flit 事务）
  - 单头部架构
  - 原生严格源路由
  - 双层 Fabric 支持
  - 高 Radix（>576）支持

SONiC 2025.11 在 AI 工厂的关键特性

微软在 OCP 2026 EMEA 峰会上公开了生产中使用的 SONiC 版本（2025.11，FRR v14）：

核心功能：
  PFC：               无损以太网，RoCEv2 必需
  eBGP Confederation：解聚合 Spine 不增加 AS-path 长度
  MACSec：            UT2 跨 DC 链路加密
  400G/800G LPO：     低功耗 AOC 光模块支持
  400G/800G ZR：      跨 DC 长距相干光支持
  多芯片：            Broadcom XGS（TH5/TH6）+ DNX（Q3D/Q4D）同时支持

商业价值：
  - 同一套 NOS 同时管理 UT2（DNX 芯片）和 LT2（XGS 芯片）
  - UT2/LT2 解聚合 Spine 的 eBGP Confederation 路由完全可行
  - 一套 CI/CD 管所有交换机

为什么 SONiC 成了 AI 工厂的”神经系统”

AI 工厂网络的特殊性：
  1. 规模巨大（数千台交换机）→ 自动化运维是必须
  2. 流量模式独特（AllReduce / KV Cache 迁移）→ 需要 PFC/ECN/SRv6 精细控制
  3. 功耗敏感 → LPO / CPO 等新光学方案需要 NOS 快速适配
  4. 多芯片混用（DNX + XGS）→ 需要统一抽象层

SONiC 恰好满足上述所有点：
  - SAI 抽象层 → 多芯片统一
  - Docker 化 → 功能按需更新不重启
  - 开源 → 大公司可直接定制
  - 社区活跃 → 新光学方案快速支持

小结

交换机 = ASIC（Broadcom Tomahawk 主导）+ NOS（SONiC 主流）
白盒生态由 ONIE / SAI / ONL 三件套支撑
SONiC 在 hyperscale 是事实标准，传统企业仍用商业 NOS
AI 集群有专用交换机：Quantum（IB）、Spectrum-X（以太网）、Jericho 3-AI
Tomahawk 6 Davisson CPO：102.4T，<48W，<7.5 pJ/bit，16 个 OE 单元，ELSFP 多厂商激光源，比传统 DSP 方案功耗降低 70%+
UALink：115+ 成员开放 Scale-Up 标准，800 Gbps/端口，1024 XPU/Pod，复用以太网物理层；2026 年底量产；博通策略是 ≤64 卡先用 PCIe Switch，>64 卡再用 UALink
SONiC 在 AI 工厂：SRv6 已在 Microsoft Fairwater（52.4 万 GPU）和阿里巴巴 eCore 生产部署；SONiC 2025.11 支持 PFC/MACSec/LPO/ZR/eBGP Confederation/多芯片

下一篇讲无损网络和拥塞控制——AI 集群最难调的部分。

内容深度由贤狼赫萝于 2026-06-15 增补，引用来源：OCP 2025/2026 幻灯片、Broadcom 技术访谈。

06-网络

#交换机 #SONiC #白盒 #Tomahawk #Tofino

无损网络与拥塞控制 —— PFC、ECN、DCQCN 上一篇

数据中心拓扑 —— Spine-Leaf、Fat-Tree、Dragonfly 下一篇