机房实战 —— 鲲鹏 920 2U 通用服务器现场拆解导览(参考 KunLun 2280 V2)

明天带新人下机房,对象是一台鲲鹏 920 的 2U 通用计算服务器。这篇是下机房前的备课笔记:核心目标是给新人把”一台服务器由什么组成、每个部件干什么、为什么这么设计”讲清楚,而不是背参数。

第二章讲过 ARM 服务器 CPU,第六章讲过鲲鹏在国产芯片里的位置——明天这台机器,就是把那些 PPT 上的名词变成手能摸到的铁的机会。

本文使用约定

  • 🎤 = 建议停下来给新人手把手讲的知识点
  • 📷 = 建议拍照存档的点(实机照片我现场补,先留位)
  • > TODO = 这台实机的具体配置,明天对着铭牌/BMC 核对后回填
  • 资料权限:互联网公开 = 该段技术参数引自《KunLun 2280 V2 服务器技术白皮书》(河南昆仑技术有限公司,文档版本 07,2026-03-04),属公开资料,可对外讲解。

⚠️ 型号确认:本文技术细节以 KunLun 2280 V2 白皮书为准。明天先看实机铭牌确认型号;若铭牌为其他贴牌名(如 S920X20),以实物为准、白皮书作参考——它们是同一鲲鹏 920 平台。


0. 下机房之前(备课 + 安检)

进机房不是开盖就拆。先把这几件事过一遍:

  • 防静电:戴防静电手环(anti-ESD wrist strap),金属触点贴紧手腕,鳄鱼夹接到机柜接地点;条件允许再穿防静电服(anti-static smock)。🎤 给新人讲清楚为什么——CMOS、内存颗粒怕静电击穿,几百伏的人体静电肉眼无感但足以打坏芯片。手环把人体和机柜拉到同一电位,防静电服则抑制衣物摩擦起电。

防静电装备
防静电服

  • 断电规则:支持热插拔的部件(硬盘、电源、风扇)现场可演示热插拔;不支持热插拔的部件(CPU、内存、PCIe 卡、FlexIO/OCP 卡、BMC 插卡)必须先正常关机、断电。🎤 让新人记住”哪些能带电插、哪些不能”这条线。

    资料权限:互联网公开。白皮书明确:FlexIO 卡 1、FlexIO 卡 2 及 BMC 插卡都不支持热插拔,更换需将电源模块下电;硬盘支持热插拔。

  • 工具:十字螺丝刀、防静电袋、手电(看槽位丝印用)、手机(拍照)。
  • 重量预期:🎤 满配 21~27kg,2U 单人搬运吃力,搬运/上架要两人。

    资料权限:互联网公开。满配净重:8×2.5 英寸 21kg;16×2.5 英寸 24kg;24×2.5 英寸 24kg;12×3.5 英寸 27kg;包装材料另 5kg。

TODO(✅):确认这台是高配定制化机器:7280Z(80C_2.9GHz_SMT_TDP325W)*2+64G*32+NVME*2+25G*2(OCP)。

📷 防静电装备:防静电手环佩戴 + 鳄鱼夹接地点特写、防静电服穿着,作为安全规范示范照。
📷 进机房第一张:整机在机柜里的位置 + 机箱头部标签(铭牌 / 合格证 / 快速访问标签 / SN 产品序列号 / 防压标签)。


1. 先建立整体认知(白皮书 1 产品概述 / 2 产品特点)

资料权限:互联网公开。

在拆细节之前,先让新人退后两步看整台机器,建立”这是什么、用在哪”的认知:

  • 定位:KunLun 2280 V2 是基于鲲鹏 920 处理器2U 2 路机架服务器,面向互联网、分布式存储、云计算、大数据、企业业务。🎤 关键词”通用计算”——不是 AI 训练机、不是纯存储机,是跑业务/数据库/虚拟化的主力机型。对比一下:GPU 服务器后面板会插满 PCIe,功耗散热是另一个量级。

GPU服务器(网图)

  • 2U 是什么概念:1U = 44.45mm,2U 约 89mm 高(白皮书机箱高 86mm)。🎤 让新人用手比一下,联系第七章”机架/U”。
  • 鲲鹏 920 = ARM 架构 SoC:🎤 今天最值得讲的一点——x86 之外的另一条路线,ARMv8 指令集。而且鲲鹏 920 是 SoC,把 DDR5 控制器、PCIe 5.0、100GE/25GE/10GE/GE 网络接口都集成进了处理器内部。联系第二章”指令集架构”、第六章”ARM 服务器 CPU”。
  • 高核 / 低核两种机型:🎤 这是白皮书新增的区分,明天先认准是哪种——
    • 高核:单 CPU ≥64 核,32 个内存槽(DDR5),最多 12 个 PCIe 标准槽。

🎤 顺带讲几个能体现”服务器级”设计的特点(白皮书”产品特点”):白金电源 50% 负载效率最高 94%、PID 智能调速、硬盘错峰上电降低启动功耗、SSD 比机械盘省电约 80%。

TODO:7280Z(80C_2.9GHz_SMT_TDP325W)*2+64G*32+NVME*2+25G*2(OCP)。


2. 三层视角:服务器到底由什么组成(重点 · 白皮书 3 物理结构 / 4 逻辑结构)

这是明天最该讲透的一节。先给新人一个能套到任何服务器上的”三层”心智模型,再对着这台机器一一指认。

🎤 第一层 · 物理结构(东西怎么摆):2U 机箱从前到后大致是——前面板/前置硬盘 → 中部基础板(CPU+内存+风扇)→ 后部电源 + IO 模组。

资料权限:互联网公开。白皮书”部件说明”列出的主要部件:IO 模组 1/2/3、电源模块、机箱、PSU 导风罩、超级电容、导风罩、风扇板、前置硬盘背板、风扇支架、风扇模块(4 个)、前置硬盘、散热器、DIMM 内存、理线架、基础板、CPU 托架、扩展板、FlexIO 卡 1(归属 CPU1)、FlexIO 卡 2(归属 CPU2)、BMC 插卡、M.2 硬盘模组、开箱检测模组。

服务器爆炸视图
服务器中间视图

🎤 第二层 · 逻辑结构(数据怎么流)

资料权限:互联网公开。白皮书逻辑结构要点:

  • 两路鲲鹏 920 处理器,高核每 CPU 16 个 DDR5、低核每 CPU 8 个 DDR
  • 两路 CPU 之间通过 2 组 HCCS 总线互连,最高 30Gbps,总速率 480Gbps。🎤 这就是第二章讲的”多路互联”,跨 CPU 访问内存有延迟差——NUMA 的由来。
  • CPU 的 PCIe 资源经 PCB 或线缆接到 PCIe Riser 卡,Riser 决定槽位规格和 PCIe 版本。
  • CPU1、CPU2 各挂 1 张 FlexIO 网卡(4×GE / 2×25GE·10GE / 1×100GE)。
  • 集成 Hi1711 BMC 管理芯片,独立外出 VGA、管理网口、串口、USB。

服务器逻辑视图

🎤 收尾点:让新人记住这张图——之后讲每个部件,都回到”它在物理上摆哪、在逻辑上连谁”。

📷 开盖俯视全景图(这张图后面反复回来指);标出基础板、扩展板、CPU 托架、内存区、风扇区、IO 模组的位置。


3. 前面板(白皮书 5.1)

带新人从正面开始,这是最直观的一面。

资料权限:互联网公开。前面板组件(8×2.5 英寸配置):UID 按钮/指示灯、健康状态指示灯、电源按钮/指示灯、故障诊断数码管、FlexIO 卡在位指示灯(1、2)、硬盘/指示灯、USB 3.0 接口、USB Type-C 接口/指示灯、VGA 接口、标签卡(含 SN 标签)。

🎤 逐个讲:

  • UID 按钮/指示灯:Unit Identification,在一排机器里定位”就是这台”。🎤 现场按一下看蓝灯亮。

    资料权限:互联网公开。短按 UID 开/关定位灯;长按约 5 秒可复位 iBMC 管理系统;BMC 触发的闪烁只持续 255 秒后自动熄灭;也可通过 BMC 命令或 WebUI 远程控制。

  • 健康状态指示灯:🎤 这是新人最该记住的”一眼看健康”灯。

    资料权限:互联网公开。绿色常亮 = 正常;红色 1Hz 闪 = 严重告警;红色 5Hz 闪 = 紧急告警

  • 故障诊断数码管:🎤 服务器特有——开机自检/故障时显示代码,比 PC 的”滴滴”报警精确得多。
  • FlexIO 卡在位指示灯(1、2):绿色常亮=卡在位且可识别,熄灭=不在位或故障。
  • 前置 USB 3.0 / USB Type-C / VGA:本地维护接口。

服务器前视图
服务器前视图照片

TODO:核对这台前面板的硬盘配置(8×2.5,实物为12×3.5)、是否带前置 IO 模组。

📷 前面板整体 + 指示灯特写(最好拍一张正常运行全绿状态);UID 灯点亮前后对比;故障诊断数码管特写。


4. 后面板(白皮书 5.2)

转到机器背后。🎤 后面板是”对外接口的总出口”。

资料权限:互联网公开。后面板组件:IO 模组 1/2/3、电源模块 1/2、电源模块指示灯/接口、FlexIO 卡 1(归属 CPU1)及指示灯、FlexIO 卡 2(归属 CPU2)及指示灯、VGA 接口、USB 3.0 接口、Mgmt 管理网口及指示灯、UID 按钮/指示灯、串口。其中 VGA / USB / 管理网口 / UID / 串口这几个位于 BMC 插卡上

🎤 逐个讲:

  • 电源模块(PSU):🎤 重点演示热插拔——拔掉一个电源,机器不断电、告警亮、另一个接管。这是新人最该亲眼看到的可靠性设计。

    资料权限:互联网公开。电源热插拔、1+1 冗余备份;白金电源;2000W AC 白金电源在输入 200~220V AC 时输出降额到 1800W;单电源无冗余、不建议单电源使用;同一台电源型号必须相同。

  • 后面板这一排 BMC 接口:🎤 强调管理网口(Mgmt)是独立于业务网口的带外管理口,讲 BMC 时还要用。
  • FlexIO 卡 1/2:业务网口来自这里,分别归属 CPU1/CPU2。🎤 注意它不支持热插拔
  • IO 模组 1/2/3:PCIe 扩展卡从这里露出挡板。

📷 后面板整体,标清每个口是什么;拔出一个 PSU 的过程(确认 1+1 冗余后再操作)。

服务器后视图

TODO:确认 PSU 数量与功率: 2000W/PSU,2个、当前 IO 模组各插了什么卡:25G OCP网卡,见下图。


5. 开盖:基础计算组件(重点 · 白皮书 5.3)

⚠️ 涉及 CPU、内存、PCIe 卡的拆装,必须先关机断电。前面的硬盘/电源/风扇热插拔演示做完,再进入这部分。

5.1 基础板与 CPU(5.3.1 接口介绍)

资料权限:互联网公开。该平台为”天池架构”,基础计算组件的典型应用为基础板CPU 集成在基础板上,不能单独更换。基础板上密布 CPU 北向/南向 UBC/UBCDD 高速连接器、电源入口连接器、NC-SI、HBRT、RTC 电池座、开箱检测连接器等。

🎤 讲给新人:

  • 指出散热器位置,鲲鹏 920 封装在散热器下,现场不开盖看 die,重点讲它在基础板上的位置。
  • 🎤 关键认知:CPU 焊在基础板上、不能单独换——这和 PC/部分 x86 服务器”CPU 可插拔”不同,整板维护。
  • 双路互联:🎤 回到第 2 节那张图,两颗 CPU 通过 2 组 HCCS 互连,引出 NUMA(第二章)。

📷 基础板俯视,指出两个 CPU 散热器、内存区、各类连接器。

5.2 内存(重点中的重点 · 白皮书 5.3.2)

这是明天最值得手把手讲的部分。白皮书分四小节,正好对应四个知识点:

① 内存槽位编号(5.3.2.1)

资料权限:互联网公开。

  • 高核:最大 32 个内存槽,1 个处理器 8 个内存通道,每通道 2 个 DIMM。编号形如 DIMM000~DIMM171(CPU1 为 DIMM0xx,CPU2 为 DIMM1xx)。
    ~~ > - 低核:最大 16 个内存槽,1 个处理器 4 个内存通道,每通道 2 个 DIMM。 ~~

🎤 拿手电照基础板丝印,带新人念出槽位编号,讲清”编号 → CPU → 通道 → DPC”的对应关系。
📷 内存区域全景 + 槽位丝印特写。

内存槽位编号

② 内存安装原则(5.3.2.2)

资料权限:互联网公开。

  • CPU1 对应的内存槽至少配 1 根
  • 不允许混用不同规格(容量/位宽/rank/高度/厂家),多根内存必须相同 P/N 编码。
  • 平衡配置性能最佳;单 CPU 配单数根(3/5/7)= 通道不平衡;两 CPU 装不同数量 = 处理器不平衡,都不推荐。
  • 空槽必须装假模块(保证风道)。

🎤 这是新人最容易踩坑的地方——内存不是随便插哪个槽都行。现场对照实机已插内存验证安装顺序。

内存安装顺序

③ 内存参数(5.3.2.3)

资料权限:互联网公开。

  • 高核:DDR5,额定 4800MT/s,单条 32/64/96/128GB,整机最多 32 条、最大 4096GB;速度 1DPC 4800 / 2DPC 4400。
  • 低核:单条 32/64GB,整机最多 16 条、最大 1024GB(32/40 核机型整机最大 2048GB)。

🎤 联系第三章”DDR 演进”——讲清 DDR5、4800MT/s、DPC(每通道几条)对频率的影响。

内存条照片

④ 内存保护技术(5.3.2.4)

资料权限:互联网公开。支持:ECC(含 SEC/DED 单错纠正/双错检测)、单设备数据校正(SDDC)、内存巡检(Demand & Patrol Scrubbing)、地址奇偶检测、内存过热调节、数据加扰(Data Scrambling)。

🎤 讲 ECC——服务器内存和家用内存的关键区别,联系第三章”ECC 与可靠性”。

🎤 本节收尾:让新人理解”槽位编号 + 安装原则”是运维加内存时必查的东西,插错了要么不认、要么掉速、要么风道乱。


6. 散热组件(白皮书 5.5)

🎤 2U 机器靠前后风道散热:前进冷风,穿过硬盘→内存→CPU→后部,热风从后排出。

资料权限:互联网公开。

  • 4 个热插拔风扇,支持 N+1(转子)失效;同台风扇必须相同 P/N。
  • 风扇支持可变转速:一般以最低速转动,入风口或机器温度升高时自动提速(PID 智能调速)。
  • 散热组件含风扇板(供电+调速背板)和风扇模块。

🎤 现场可演示拔一个风扇 → 其他风扇提速 + 告警。提醒新人:机房噪音大、风扇全速尤其吵是正常现象(联系第五章”散热”)。

📷 风扇模组 + 风道方向(用手感受前进后出)。

风道方向


7. 存储组件(重点 · 白皮书 5.6)

存储是另一个适合手把手的部分。

7.1 硬盘配置与编号(5.6.1 / 5.6.2)

资料权限:互联网公开。支持 SAS/SATA/NVMe 硬盘,多种配置:8×2.5、8×2.5 SAS/SATA(兼容 4×2.5 NVMe)、16×2.5、24×2.5、12×3.5 等;前置 + 后置 + M.2 多种组合。

🎤 带新人对照前面板盘位念硬盘编号,讲:

  • 盘位编号规则:物理位置和软件里看到的盘符怎么对应——这是换盘时别拔错盘的关键。
  • 盘型:2.5”/3.5”、SAS/SATA/NVMe 的区别,联系第四章”存储接口”。

📷 前置硬盘背板整体 + 单个盘位编号丝印特写。

2.5 SATA SSD

2.5 SATA SSD

2.5 U.2 NVMe SSD

2.5 U.2 NVMe SSD

3.5 SATA HDD

3.5 SATA HDD

TODO:填实际硬盘配置——几块盘、容量、接口、用途(系统盘/数据盘)。

7.2 硬盘指示灯(5.6.3)

🎤 每个盘位有三个灯:Active(绿)/ Fault(红)/ Locate(蓝)

资料权限:互联网公开。SAS/SATA 硬盘指示灯状态:

Active(绿) Fault(红) Locate(蓝) 含义
硬盘不在位
常亮 在位且无故障
4Hz 闪 正常读写
1Hz 闪 1Hz 闪 正在重构
常亮 常亮 硬盘故障
常亮 硬盘被拔出
常亮 1Hz 闪 硬盘被定位

NVMe 硬盘另有”热插拔过程 / 允许拔出”等状态(Fault 灯不同频率闪烁)。

🎤 换盘 SOP:管理软件里定位 → 点亮该盘 Locate(蓝)灯 → 现场确认编号 → 热拔热插。现场演示点亮某块盘的定位灯

📷 硬盘指示灯各状态特写(至少拍”在位无故障”和”定位中”)。

硬盘定位指示灯

7.3 后置硬盘 / M.2 / RAID(5.6.4 ~ 5.6.6)

资料权限:互联网公开。

  • 后置硬盘模组:IO 模组 1/2 支持后置 2×3.5 或 2×2.5;IO 模组 3 支持后置 4×2.5(其中 IO3 后置 4 盘支持硬 RAID)。
  • M.2 硬盘模组:内置,常用作系统盘。
  • RAID 级别比较表(N=成员盘数,M=子组数):
RAID 可靠性 硬盘利用率
0 100%
1 50%
5 较高 (N-1)/N
6 较高 (N-2)/N
10 50%
50 较高 (N-M)/N
60 较高 (N-M×2)/N

🎤 RAID 是重头戏——联系第四章”RAID 与企业存储”,对着这张表讲”容量利用率 vs 冗余 vs 性能”的取舍。提一句:SAS/SATA 走 RAID 控制卡,支持超级电容掉电保护。

TODO:确认这台是否配 RAID 卡、跑什么 RAID 级别、有无后置盘和 M.2。现场可进 BMC 看逻辑卷。


8. 扩展组件:存储扩展 / IO 扩展 / FlexIO(白皮书 5.7 ~ 5.9)

🎤 这部分讲”按需扩展”,体现通用服务器的灵活性。

资料权限:互联网公开。

  • 存储扩展组件(5.7):硬盘背板(如 24×2.5 NVMe 背板,带 UBC 连接器 + MiniSAS Port A/B + 电源/低速连接器),把更多盘连到 CPU/RAID 卡。
  • IO 扩展组件(5.8):PCIe Riser + 扩展卡。高核最多 12 个、低核最多 10 个 PCIe 标准槽,规格覆盖 PCIe 5.0 / 4.0 的 x16 / x8,全高全长/全高半长/半高半长按 IO 模组不同而异。🎤 讲 Riser 的作用——把主板 PCIe 通道”立起来”接更多卡。
  • FlexIO 卡(5.9):该平台特色,灵活配网口、不占标准 PCIe 槽。单板最多 2 张,单张提供 4×GE 电口 / 2×25GE·10GE 光口 / 1×100GE 光口,均支持 PXE;25GE 与 10GE 光口靠换光模块切速率。

📷 打开 IO 区域拍 Riser 和插的卡;拍 FlexIO 卡及其挡板。

TODO:列出这台实际插了哪些 IO 卡(网卡型号/速率、RAID 卡等)、FlexIO 卡端口配置。

OCP3.0 网卡(支持NCSI Sharelink Management)

OCP3.0网卡照片

PCIe 网卡(普通网卡)

PCIE网卡照片


9. BMC 插卡 & 系统管理(重点收尾 · 白皮书 5.10 + 9 系统管理)

明天的收尾高潮:带外管理。🎤 这是服务器区别于 PC 的灵魂功能之一。

资料权限:互联网公开。

  • BMC 插卡(5.10):本产品用 Hi1711 BMC 插卡,外出 VGA、管理网口、USB、串口、USB Type-C;板上 COM_SW 跳线可切换面板串口连到 BMC 还是 OS。
  • iBMC 系统管理(第 9 章)
    • 管理接口:IPMI 1.5/2.0、Redfish、SNMP、HTTPS、DCMI 1.5、命令行
    • 故障诊断:临终截屏与录像、屏幕快照、Syslog/Trap/邮件告警、FDM 基于部件的精准故障诊断。
    • 远程维护:虚拟 KVM(KVM over IP)+ 虚拟媒体、RAID 带外监控配置、Smart Provisioning 免光盘装 OS。
    • 智能电源:功率封顶、动态节能。
    • 管理网口:1 个 10/100/1000Mbps RJ45。

🎤 用笔记本连管理网口,登录 iBMC Web,现场演示:

  • 看实时温度、风扇转速、电源功率、健康状态。
  • 看硬件告警日志(FDM 精准定位到部件)。
  • 远程 KVM——不插显示器键盘也能操作这台机器的”屏幕”。🎤 这个最让新人惊艳,讲清运维为什么离不开它。
  • 远程开关机 / 重启。

📷 iBMC 登录界面 + 能看到温度/风扇/功率的仪表盘页面。

⚠️ 截图/拍照前确认不泄露内网 IP、SN、账号密码

TODO:提前找运维要 iBMC 管理 IP 和登录账号,别现场卡壳。

BMC运行界面示意


10. 收尾:规格、兼容性、认证(白皮书第 6、7、10 章)

回到会议室或现场总结,把”摸过的铁”和”纸面规格”对上。

资料权限:互联网公开。

  • 技术规格(6.1):2U 机架;鲲鹏 920 双路(高核≥32 核 / 低核 40 或 32 核);内存最高 4800MT/s RDIMM;前面板 2×USB3.0 + VGA + USB-C,后面板 2×USB3.0 + VGA + 3.5mm 串口 + RJ45 管理网口;4 个热插拔风扇 N+1;集成显卡 32MB 显存,最高 1920×1200@60Hz / 16M 色。
  • 环境规格(6.2):工作温度 5~40℃(ASHRAE A1/A2/A3);工作湿度 8~90%RH 无冷凝;风量 ≥204CFM;工作海拔 ≤3050m(超 900m 按高度降额)。🎤 用这条解释机房为什么要恒温恒湿、为什么有冷热通道。
  • 物理规格(6.3):机箱 86mm×447mm×798mm;装 IEC 297 通用机柜(宽 482.6mm、深 ≥1000mm);满配净重 21~27kg。
  • 电源规格(6.4):热插拔 1+1;外部空开推荐 高核 AC 32A / DC 100A,低核 AC 32A / DC 63A。
  • 认证(第 10 章):中国 CCC(GB 17625.1-2022、GB 4943.1-2022、GB/T 9254.1-2021 A 级)、CQC(CQC3135-2011)、航空运输鉴定 IATA DGR 64th 2023

🎤 讲两个观念:① 兼容性列表——国产服务器什么 OS/硬件经过认证才能配,不能乱配(白皮书 7 软硬件兼容性);② 认证对采购合规的意义(联系第九章)。


附:明天的动线清单(打印带去)

热插拔的先演示,断电拆的放后面:

  1. □ 进门:机箱头部标签(铭牌/SN)、机柜位置 📷
  2. □ 整机认知:2U / 通用计算 / 鲲鹏 920 ARM / 高核·低核 🎤
  3. □ 三层视角讲解 + 画逻辑图 🎤(重点)
  4. □ 前面板:健康灯、UID 灯、故障数码管演示 📷🎤
  5. □ 后面板:BMC 接口、FlexIO、PSU 热插拔演示 📷🎤
  6. □ 风扇:风道、风扇热插拔演示 📷🎤
  7. □ 前置硬盘:编号、三色指示灯、Locate 定位灯演示 📷🎤
  8. □ —(关机断电)—
  9. □ 开盖俯视全景 📷
  10. □ 基础板 / CPU(焊死不可换)/ HCCS / NUMA 🎤
  11. □ 内存:槽位编号、安装原则、参数、ECC 🎤(重点)
  12. □ IO 扩展 / Riser / FlexIO 📷🎤
  13. □ —(恢复供电、开机)—
  14. □ BMC:登录 iBMC、远程 KVM、FDM 告警日志演示 📷🎤(高潮)
  15. □ 规格 / 环境 / 认证对照总结 🎤

全文 TODO 汇总(明天对实机回填):高核/低核、核数主频 TDP、硬盘配置与编号、RAID 卡与级别、后置盘/M.2、IO 卡清单、FlexIO 端口配置、PSU 数量与功率、iBMC 管理 IP 与账号、OS 版本。
回填并配齐现场照片后,把本文从”备课模板”升级成”实机档案”。

资料来源:《KunLun 2280 V2 服务器技术白皮书》,河南昆仑技术有限公司,文档版本 07(2026-03-04)。本文引用的技术参数均来自该公开白皮书,资料权限:互联网公开。原始链接:https://www.kunlunit.com/static/resource/kunlun-2280-v2-whitepaper