基础设施架构
NVIDIA GB200 NVL72 基础设施和 MPO-8 APC 可扩展单元布线
解构 Blackwell 可扩展单元 (SU) 的布线架构,其中 8 个机架汇聚成 9,216 股有源光纤。
DGX GB200 可扩展单元 (SU) 代表着数据中心架构的重大转变。SU 是一个统一的 576-GPU 实体,由 9,216 股有源光纤互连。ScaleFibre 提供管理这种密度所需的精密端接主干线。
SuperPOD 的 4 种物理网络结构
NVIDIA 将 SU 分割成不同的物理层以隔离 GPU 流量。
MN-NVL (NVLink 5)
纵向扩展连接 72 个 GPU,速度为 1.8 TB/s 的“内部”机架网络。
- 零光纤
- 无源铜背板
- 盲插连接器
计算 InfiniBand
横向扩展用于大规模多节点训练的主要“东西向”网络结构。
- 每个 SU 4,608 股有源光纤
- 轨道优化拓扑
- Quantum-3/Quantum-2
存储和带内管理
前端基于以太网的网络结构,用于高速数据摄取和配置。
- 5:3 阻塞系数
- BlueField-3 DPU 卸载
- 支持 VXLAN/RoCE
OOB 管理
控制平面用于硬件遥测、BMC 和 PDU 管理的隔离网络。
- RJ45/Cat6 铜缆
- SN2201 交换机层级
- 物理气隙安全
百亿亿次级 SU 指标
一个 8 机架的可扩展单元是 NVIDIA AI 工厂的基本构建模块。
9,216
每个 SU 的有源光纤数4,608
仅计算光纤数5:3
存储阻塞比400G/800G
原生端口速度SU 连接的三个层面
A 级:服务器到叶交换机
每个机架 1,152 根光纤,使用高纤芯数主干线或跳线将 NVL72 节点连接到叶交换机。
B 级:叶交换机到脊交换机
使用 1:1 无阻塞链路聚合 SU 内部与导轨对齐的计算流量。
C 级:脊交换机到核心交换机
通过高纤芯数主干线将 SU 扩展到集中式核心区域。
传统跳线(点对点)
- ✕手动复杂性:每个 8 机架块需要 9,216 根独立跳线。
- ✕气流受阻:密集的线缆束阻碍液冷排气路径。
- ✕风险概况:手动 1:1 跳线时出现“交叉导轨”的可能性很高。
- ✕部署时间:每个 SU 手动布线和标记需要 115+ 小时。
模块化高纤芯数主干线
- ✓即插即用:将数千根光纤整合到预端接的 128F/144F/256F/288F/576F 定制主干线中。
- ✓热优化:小直径线缆可最大限度地提高密集机架中的气流。
- ✓路径效率:将每个机架的 1,152 股有源光纤整合到高密度 MPO 骨干网中。
- ✓安装特点:通过预端接工厂测试组件快速部署。
有源光纤增长:从节点到完整 SuperPOD
布线复杂性每个 SU 的 9,216 股有源光纤需要模块化高纤芯数主干线,以避免气流阻塞的“线缆混乱”。
可扩展单元可视化
8 机架计算块
一个 NVIDIA GB200 SU(可扩展单元)由 8 个机架组成,每个机架容纳一个带有 72 个 GPU 的 DGX GB200 NVL72 系统。
高纤芯数主干线分布
将数千根机架光纤整合到高密度主干线中,以实现气流净化、快速安装和最小化路径占用。
液冷系统
液冷板稳定托盘环境,使 OSFP 收发器能够通过散热片有效散热。


