洞见数据 · 方舟

网卡演进 —— 从千兆到 800G

网卡是数据中心从"够用"走向"AI 集群"的关键驱动。本文按代次梳理从千兆到 800G 的演进，以及 PCIe / SerDes / 光模块这些"看不见"的配套。

2025-11-09

06-网络

#网卡 #以太网 #100G #400G #800G

GPU 选型实战与第五章小结

把第五章 8 篇连起来——按业务负载实际怎么选 GPU、怎么搭集群。本篇是第五章收口。

2025-11-02

05-GPU与AI

#GPU 选型 #第五章小结

AI 集群网络 —— InfiniBand、RoCE 与万卡训练

万卡 AI 训练集群里，网络比 GPU 还难调。InfiniBand vs RoCE，"轨道"拓扑，rail-optimized，NCCL 调优——本文讲清 AI 集群网络的来龙去脉。

2025-10-26

05-GPU与AI

#InfiniBand #RoCE #RDMA #集群网络

AI 训练 vs 推理 —— 硬件视角的根本差异

训练和推理虽然都用 GPU，但对硬件的需求差异巨大——训练吃带宽和算力，推理吃显存和延迟。本文从硬件视角讲清两者差异。

2025-10-19

05-GPU与AI

#训练 #推理 #FP8 #FP4 #KV-Cache

国产 AI 芯片 —— 昇腾、寒武纪、摩尔线程等

美国制裁让国产 AI 芯片"被动加速"。华为昇腾、寒武纪、摩尔线程、燧原、壁仞、海光各自走不同路线。本文盘点架构、生态和实际可用性。

2025-10-12

05-GPU与AI

#昇腾 #寒武纪 #摩尔线程 #燧原 #壁仞 #海光

Intel Gaudi、Google TPU 与其他 AI 加速器

NVIDIA 之外，Google TPU 自用十多年，Intel Gaudi 主打性价比，AWS Trainium 自研降本，Cerebras/Groq 走另一条架构路线。本文盘点这些"非主流"AI 加速器。

2025-10-05

05-GPU与AI

#Gaudi #TPU #Trainium #Cerebras #Groq

AMD Instinct —— NVIDIA 之外的"另一颗 AI GPU"

AMD MI300X 是过去十年第一次有非 NVIDIA GPU 能在 AI 大模型上"上规模"，OpenAI、Meta、微软都买。本文讲清 AMD CDNA 架构、MI200/300/325/400 路线，以及 ROCm 软件栈的现状。

2025-09-28

05-GPU与AI

#AMD #MI300 #ROCm #CDNA

NVLink、NVSwitch 与 NVL72 —— 多卡变成"一颗大 GPU"

单卡再强一颗也跑不了 GPT-4。把几十、几百颗 GPU"连成一颗"是 AI 集群的核心问题。本文从 NVLink 1.0 讲到 NVL72 整机柜，看互联怎么从 PCIe 走到 NVSwitch Fabric。

2025-09-21

05-GPU与AI

#NVLink #NVSwitch #NVL72 #互联

NVIDIA 数据中心 GPU 路线 —— V100 到 Rubin

V100 让 Tensor Core 进入数据中心，A100 把它做成主流，H100 用 FP8 引爆大模型，B200 把整机柜变成"一颗大 GPU"。本文按代次梳理 NVIDIA 数据中心 GPU 路线。

2025-09-14

05-GPU与AI

#NVIDIA #H100 #B200 #Tensor Core

GPU 历史 —— 从图形到通用计算

1999 年 NVIDIA 注册了 "GPU" 这个词条，那时它只画三角形。25 年后 GPU 把数据中心彻底改写。本文回看 GPU 怎么从图形卡演变成 AI 算力主力。

2025-09-07

05-GPU与AI

#GPU #CUDA #GPGPU