网卡演进 —— 从千兆到 800G 网卡是数据中心从"够用"走向"AI 集群"的关键驱动。本文按代次梳理从千兆到 800G 的演进,以及 PCIe / SerDes / 光模块这些"看不见"的配套。 2025-11-09 06-网络 #网卡 #以太网 #100G #400G #800G
AI 集群网络 —— InfiniBand、RoCE 与万卡训练 万卡 AI 训练集群里,网络比 GPU 还难调。InfiniBand vs RoCE,"轨道"拓扑,rail-optimized,NCCL 调优——本文讲清 AI 集群网络的来龙去脉。 2025-10-26 05-GPU与AI #InfiniBand #RoCE #RDMA #集群网络
AI 训练 vs 推理 —— 硬件视角的根本差异 训练和推理虽然都用 GPU,但对硬件的需求差异巨大——训练吃带宽和算力,推理吃显存和延迟。本文从硬件视角讲清两者差异。 2025-10-19 05-GPU与AI #训练 #推理 #FP8 #FP4 #KV-Cache
国产 AI 芯片 —— 昇腾、寒武纪、摩尔线程等 美国制裁让国产 AI 芯片"被动加速"。华为昇腾、寒武纪、摩尔线程、燧原、壁仞、海光各自走不同路线。本文盘点架构、生态和实际可用性。 2025-10-12 05-GPU与AI #昇腾 #寒武纪 #摩尔线程 #燧原 #壁仞 #海光
Intel Gaudi、Google TPU 与其他 AI 加速器 NVIDIA 之外,Google TPU 自用十多年,Intel Gaudi 主打性价比,AWS Trainium 自研降本,Cerebras/Groq 走另一条架构路线。本文盘点这些"非主流"AI 加速器。 2025-10-05 05-GPU与AI #Gaudi #TPU #Trainium #Cerebras #Groq
AMD Instinct —— NVIDIA 之外的"另一颗 AI GPU" AMD MI300X 是过去十年第一次有非 NVIDIA GPU 能在 AI 大模型上"上规模",OpenAI、Meta、微软都买。本文讲清 AMD CDNA 架构、MI200/300/325/400 路线,以及 ROCm 软件栈的现状。 2025-09-28 05-GPU与AI #AMD #MI300 #ROCm #CDNA
NVLink、NVSwitch 与 NVL72 —— 多卡变成"一颗大 GPU" 单卡再强一颗也跑不了 GPT-4。把几十、几百颗 GPU"连成一颗"是 AI 集群的核心问题。本文从 NVLink 1.0 讲到 NVL72 整机柜,看互联怎么从 PCIe 走到 NVSwitch Fabric。 2025-09-21 05-GPU与AI #NVLink #NVSwitch #NVL72 #互联
NVIDIA 数据中心 GPU 路线 —— V100 到 Rubin V100 让 Tensor Core 进入数据中心,A100 把它做成主流,H100 用 FP8 引爆大模型,B200 把整机柜变成"一颗大 GPU"。本文按代次梳理 NVIDIA 数据中心 GPU 路线。 2025-09-14 05-GPU与AI #NVIDIA #H100 #B200 #Tensor Core
GPU 历史 —— 从图形到通用计算 1999 年 NVIDIA 注册了 "GPU" 这个词条,那时它只画三角形。25 年后 GPU 把数据中心彻底改写。本文回看 GPU 怎么从图形卡演变成 AI 算力主力。 2025-09-07 05-GPU与AI #GPU #CUDA #GPGPU