

# Cơ sở hạ tầng NVIDIA GB200 NVL72 và Cáp MPO-8 APC cho các Đơn vị Mở rộng (Scalable Units)

Đơn vị Mở rộng (SU) DGX GB200 đại diện cho một sự thay đổi lớn trong kiến trúc trung tâm dữ liệu. SU là một thực thể thống nhất gồm 576 GPU được kết nối bởi 9.216 sợi quang hoạt động. ScaleFibre cung cấp các cáp trunk được bấm chính xác cần thiết để quản lý mật độ này.


---


## Bốn Kiến trúc SuperPOD Vật lý
NVIDIA phân chia SU thành các lớp vật lý riêng biệt để cách ly lưu lượng GPU.

### MN-NVL (NVLink 5) [Mở rộng nội bộ]

* Mạng rack 'nội bộ' kết nối 72 GPU ở tốc độ 1.8 TB/s.
**Features:**
  - Không có sợi quang
  - Bo mạch chủ đồng thụ động
  - Đầu nối Blind-mate

### Tính toán InfiniBand [Mở rộng ngoại vi]

* Kiến trúc 'Đông-Tây' chính cho việc đào tạo đa nút lớn.
**Features:**
  - 4.608 sợi hoạt động trên mỗi SU
  - Cấu trúc liên kết tối ưu hóa đường ray
  - Quantum-3/Quantum-2

### Lưu trữ & Trong băng tần [Giao diện người dùng]

* Kiến trúc dựa trên Ethernet để nhập dữ liệu và cấp phép tốc độ cao.
**Features:**
  - Hệ số chặn 5:3
  - Xử lý tải bằng DPU BlueField-3
  - Hỗ trợ VXLAN/RoCE

### Quản lý OOB [Mặt phẳng điều khiển]

* Mạng cách ly để đo từ xa phần cứng, BMC và quản lý PDU.
**Features:**
  - Đồng RJ45/Cat6
  - Tầng chuyển mạch SN2201
  - Bảo mật cách ly vật lý


## Các Chỉ số SU Exascale
Một Đơn vị Mở rộng (Scalable Unit - SU) gồm 8 rack đại diện cho khối xây dựng cơ bản của Nhà máy AI NVIDIA.

| Metric | Value |
| :--- | :--- |
| Sợi quang hoạt động trên mỗi SU | **9,216** |
| Sợi dành riêng cho tính toán | **4,608** |
| Tỷ lệ chặn lưu trữ | **5:3** |
| Tốc độ cổng gốc | **400G/800G** |
## Ba Cấp độ Kết nối của SU
1. **Cấp độ A: Server-to-Leaf**: 1.152 sợi trên mỗi rack sử dụng cáp trunk số sợi cao hoặc dây nhảy để kết nối các nút NVL72 với Leaf Switches.
2. **Cấp độ B: Leaf-to-Spine**: Tổng hợp lưu lượng được căn chỉnh theo đường ray trong SU bằng cách sử dụng các liên kết không chặn 1:1 cho tính toán.
3. **Cấp độ C: Spine-to-Core**: Mở rộng vượt ra ngoài SU đến một khu vực Core tập trung bằng cách sử dụng các cáp trunk số lượng cao.

## Comparison: Kết nối cũ (điểm-tới-điểm) vs. Hệ thống cáp Trunk Mô-đun Số Sợi Cao

### Kết nối cũ (điểm-tới-điểm)
* Phức tạp thủ công: Yêu cầu 9.216 dây vá riêng lẻ cho mỗi khối 8 rack.
* Cản trở luồng khí: Các bó cáp dày đặc chặn đường thoát khí của hệ thống làm mát bằng chất lỏng.
* Hồ sơ rủi ro: Khả năng cao xảy ra 'đường ray chéo' trong quá trình vá 1:1 thủ công.
* Thời gian triển khai: Hơn 115 giờ để định tuyến và dán nhãn thủ công cho mỗi SU.

### Hệ thống cáp Trunk Mô-đun Số Sợi Cao
* Cắm-và-chạy: Gộp hàng nghìn sợi quang vào các cáp trunk được bấm sẵn 128F/144F/256F/288F/576F tùy chỉnh.
* Tối ưu hóa nhiệt: Cáp đường kính nhỏ tối đa hóa luồng khí trong các tủ rack dày đặc.
* Hiệu quả đường dẫn: Gộp 1.152 sợi hoạt động trên mỗi rack vào các đường trục MPO số lượng cao.
* Hồ sơ lắp đặt: Triển khai nhanh chóng thông qua các bộ phận được bấm sẵn đã kiểm tra tại nhà máy.

## Expert Insight
> ""
> — **<no value>**, <no value>
## Technical FAQ
**Q: Làm thế nào để số lượng SU vẫn dễ quản lý ở mức 9.216 sợi?**
A: Bằng cách sử dụng hệ thống cáp phân cấp. [Cáp trunk số sợi cao](/products/optical-cable-assemblies/mpo-trunks/high-fibre-count-mpo-trunks/) thay thế hàng nghìn dây vá MPO riêng lẻ, giảm thể tích vật lý và ngăn chặn tắc nghẽn làm mát.

**Q: 'Hệ số chặn 5:3' trong kiến trúc lưu trữ là gì?**
A: Không giống như kiến trúc tính toán không chặn (1:1), mạng lưu trữ cố tình bị quá tải. Điều này giúp giảm chi phí cáp và độ phức tạp trong khi vẫn đáp ứng yêu cầu 40GB/s mỗi nút cho lưu trữ. Việc triển khai thường sử dụng [cáp vá MPO tương thích NVIDIA](/products/optical-cable-assemblies/mpo-trunks/nvidia-compatible-mpo-patch-cable-apc/).

**Q: Tại sao kiến trúc NVLink nội bộ không sử dụng sợi quang?**
A: NVIDIA sử dụng bo mạch chủ đồng thụ động và các hộp cáp bên trong rack NVL72. Điều này loại bỏ hàng nghìn bộ thu phát quang và sợi quang, giảm đáng kể mức tiêu thụ điện năng và độ trễ. Sợi quang được dành cho [kiến trúc tính toán mở rộng](/products/optical-cable-assemblies/mpo-trunks/nvidia-compatible-mpo-splitter-ndr/).

**Q: Điều gì xảy ra khi chúng ta mở rộng lên 16 Đơn vị Mở rộng (SU)?**
A: Ở quy mô 16 SU (9.216 GPU), tổng số sợi quang hoạt động chỉ riêng cho kiến trúc tính toán đạt 18.432 sợi. Quản lý mật độ này đòi hỏi [vỏ bọc mật độ cao](/products/housings/high-fibre-count-housings/highstack-fixed-housings-for-high-count-optical-fibre/) được thiết kế đặc biệt cho sợi quang số lượng lớn và kiến trúc chuyển mạch nhóm lõi tập trung.

**Q: Tại sao lại sử dụng MPO-8 thay vì MPO-12 tiêu chuẩn?**
A: Các bộ thu phát 400G NDR và 800G XDR hiện đại sử dụng quang học song song 4 làn hoặc 8 làn. Căn chỉnh MPO 8 sợi phù hợp hoàn hảo với cấu hình 4x Tx và 4x Rx. Sử dụng [cáp trunk MPO 8 sợi hoạt động](/products/optical-cable-assemblies/mpo-trunks/small-fibre-count-mpo-trunks/) loại bỏ các sợi 'tối' hoặc lãng phí trong kiến trúc cụm.

**Q: Tầm quan trọng của lớp đánh bóng APC (Angled Physical Contact) là gì?**
A: Tín hiệu 100G-PAM4 tốc độ cao cực kỳ nhạy cảm với phản xạ ngược. Góc 8 độ của [đầu nối APC](/products/optical-cable-assemblies/mpo-trunks/nvidia-compatible-mpo-patch-cable-apc/) đảm bảo ánh sáng phản xạ được hấp thụ vào lớp vỏ sợi quang, duy trì Mất mát Trở lại Quang học (ORL) cao cần thiết cho việc đào tạo AI không lỗi.

**Q: Mật độ sợi quang ảnh hưởng đến các trung tâm AI làm mát bằng chất lỏng như thế nào?**
A: Ngay cả với các khay làm mát bằng chất lỏng, không khí vẫn phải lưu thông để quản lý nhiệt thứ cấp. Việc sử dụng [cáp SmartRibbon mật độ cao](/products/fibre-optic-cables/indoor-cables/smartribbon-flame-retardant-optical-fibre-cables/) giảm đáng kể đường kính cáp, đảm bảo rằng hệ thống cáp vật lý không cản trở luồng khí hoặc các bộ góp làm mát bằng chất lỏng.

**Q: Hạn chế về khoảng cách đối với hệ thống cáp cấp SU là gì?**
A: Đa mode (OM4/OM5) bị giới hạn ở 50 mét cho 400G/800G. Đối với các liên kết Spine-to-Core tập trung vượt quá giới hạn này, [sợi quang đơn mode G.657.A1](/products/fibre-optic-cables/indoor-cables/slimcore-indoor-optical-cables/slimcore-144-fibre-indoor-fibre-optic-cable/) là bắt buộc để hỗ trợ phạm vi xa hơn mà không suy giảm tín hiệu.

**Q: Tôi có thể sử dụng cáp ngoài trời tiêu chuẩn cho các đường trục trung tâm dữ liệu AI không?**
A: Không. Các trung tâm AI trong nhà yêu cầu [LSZH (ít khói, không halogen)](/products/fibre-optic-cables/indoor-cables/slimcore-indoor-optical-cables/), Riser hoặc Plenum để đáp ứng các quy định an toàn cháy nổ cần thiết tùy thuộc vào quy định địa phương. Đối với các đường dẫn mật độ cao, [cáp SlimCORE trong nhà](/products/fibre-optic-cables/indoor-cables/slimcore-indoor-optical-cables/slimcore-288-fibre-indoor-fibre-optic-cable/) chuyên dụng cung cấp số lượng sợi cần thiết với đường kính giảm.

**Q: Lợi ích của dây nối quang được bấm sẵn tại nhà máy trong SU là gì?**
A: [Dây nối quang MPO](https://americas.scalefibre.com/en/products/optical-cable-assemblies/optical-fibre-pigtails/mpo-cord-optical-fibre-pigtails/) cho phép nối nhanh bằng phương pháp nhiệt hạch ở lớp Spine hoặc Core. Việc bấm đầu này tại nhà máy ở một đầu mang lại lợi ích của việc bấm sẵn, trong khi đầu 'trống' cho phép linh hoạt phù hợp với chiều dài yêu cầu tại chỗ.


## References

