인프라 아키텍처

NVIDIA GB200 NVL72 인프라 및 스케일러블 유닛을 위한 MPO-8 APC 케이블링

8개의 랙이 9,216개의 활성 광섬유 가닥으로 수렴되는 Blackwell 스케일러블 유닛(SU)의 케이블링 아키텍처를 분석합니다.

DGX GB200 스케일러블 유닛(SU)은 데이터센터 아키텍처의 큰 변화를 의미합니다. SU는 9,216개의 활성 광섬유 가닥으로 상호 연결된 통합 576-GPU 개체입니다. ScaleFibre는 이러한 밀도를 관리하는 데 필요한 정밀 종단 트렁크를 제공합니다.

4가지 물리적 SuperPOD 패브릭

NVIDIA는 GPU 트래픽을 격리하기 위해 SU를 별개의 물리적 계층으로 분할합니다.

MN-NVL (NVLink 5)

스케일업

72개 GPU를 1.8TB/s로 연결하는 ‘내부’ 랙 네트워크.

  • 광섬유 없음
  • 수동 구리 백플레인
  • 블라인드-메이트 커넥터

Compute InfiniBand

스케일아웃

대규모 다중 노드 훈련을 위한 주요 ‘동서’ 패브릭.

  • SU당 4,608개의 활성 광섬유
  • 레일 최적화 토폴로지
  • 퀀텀-3/퀀텀-2

Storage & In-Band

프론트엔드

고속 데이터 수집 및 프로비저닝을 위한 이더넷 기반 패브릭.

  • 5:3 블로킹 팩터
  • BlueField-3 DPU 오프로드
  • VXLAN/RoCE 지원

OOB Management

제어 플레인

하드웨어 원격 측정, BMC 및 PDU 관리를 위한 격리된 네트워크.

  • RJ45/Cat6 구리
  • SN2201 스위치 티어
  • 물리적 에어갭 보안

엑사스케일 SU 지표

8-랙 스케일러블 유닛은 NVIDIA AI 팩토리의 기본 구성 요소를 나타냅니다.

9,216

SU당 활성 광섬유

4,608

컴퓨팅 전용 가닥

5:3

스토리지 블로킹 비율

400G/800G

네이티브 포트 속도

SU 연결의 세 가지 수준

1
레벨 A: 서버-리프

고밀도 광섬유 트렁크 또는 점퍼를 사용하여 랙당 1,152개의 광섬유로 NVL72 노드를 리프 스위치에 연결합니다.

2
레벨 B: 리프-스파인

SU 내에서 레일 정렬 트래픽을 컴퓨팅을 위한 1:1 논블로킹 링크를 사용하여 집계합니다.

3
레벨 C: 스파인-코어

SU를 넘어 중앙 코어 영역으로 고밀도 트렁크를 사용하여 확장합니다.

레거시 패칭 (지점 간)

  • 수동 복잡성: 8-랙 블록당 9,216개의 개별 패치 코드 필요.
  • 공기 흐름 방해: 밀집된 케이블 번들이 액체 냉각 배기 경로를 막음.
  • 위험 프로필: 수동 1:1 패칭 중 ‘교차 레일’ 발생 가능성 높음.
  • 배포 시간: SU당 수동 라우팅 및 라벨링에 115시간 이상 소요.

모듈형 고밀도 광섬유 트렁킹

  • 플러그 앤 플레이: 수천 개의 광섬유를 사전 종단된 128F/144F/256F/288F/576F 맞춤형 트렁크로 통합.
  • 열 최적화: 소직경 케이블이 밀집된 랙에서 공기 흐름을 극대화.
  • 경로 효율성: 랙당 1,152개의 활성 광섬유를 고밀도 MPO 백본으로 통합.
  • 설치 프로필: 사전 종단된 공장 테스트 조립품을 통해 신속한 배포.

활성 광섬유 증가: 노드에서 전체 SuperPOD까지

케이블링 복잡성
SU당 9,216개의 활성 광섬유는 공기 흐름을 막는 '케이블 혼란'을 방지하기 위해 모듈형 고밀도 광섬유 트렁크를 필요로 합니다.

시각화된 스케일러블 유닛

8-랙 컴퓨팅 블록
8-랙 컴퓨팅 블록

NVIDIA GB200 SU(스케일러블 유닛)는 각각 72개의 GPU를 갖춘 DGX GB200 NVL72 시스템을 수용하는 8개의 랙으로 구성됩니다.

고밀도 광섬유 트렁크 분배
고밀도 광섬유 트렁크 분배

수천 개의 랙 광섬유를 고밀도 트렁크로 통합하여 공기 흐름 확보, 신속한 설치 및 최소한의 경로 사용을 가능하게 합니다.

액체 냉각
액체 냉각

액체 냉각 콜드 플레이트는 트레이 환경을 안정화하여 OSFP 트랜시버가 라이딩 방열판을 통해 효과적으로 열을 방출할 수 있도록 합니다.

Technical FAQ

+ SU의 9,216개 광섬유 수가 어떻게 관리될 수 있나요?
계층형 케이블링 구조를 사용하여 관리합니다. 고밀도 광섬유 트렁크는 수천 개의 개별 MPO 패치 코드를 대체하여 물리적 볼륨을 줄이고 냉각 방해를 방지합니다.
+ 스토리지 패브릭의 '5:3 블로킹 팩터'는 무엇인가요?
논블로킹(1:1) 컴퓨팅 패브릭과 달리 스토리지 네트워크는 의도적으로 오버서브스크라이브됩니다. 이는 스토리지에 대한 노드당 40GB/s 요구 사항을 충족하면서 광섬유 비용과 복잡성을 줄입니다. 배포 시 종종 NVIDIA 호환 MPO 패치 케이블을 활용합니다.
+ 내부 NVLink 패브릭은 왜 광섬유가 없나요?
NVIDIA는 NVL72 랙 내부에 수동 구리 백플레인과 케이블 카트리지를 사용합니다. 이는 수천 개의 광 트랜시버와 광섬유를 제거하여 전력 소비와 지연 시간을 크게 줄입니다. 광섬유는 스케일아웃 컴퓨팅 패브릭을 위해 예약되어 있습니다.
+ 16개의 스케일러블 유닛으로 확장하면 어떻게 되나요?
16-SU 규모(9,216개 GPU)에서는 컴퓨팅 패브릭만으로 총 활성 광섬유 수가 18,432가닥에 이릅니다. 이러한 밀도를 관리하려면 고밀도 광섬유 및 중앙 집중식 코어 그룹 스위칭 아키텍처를 위해 특별히 설계된 고밀도 하우징이 필요합니다.
+ 표준 MPO-12 대신 MPO-8이 사용되는 이유는 무엇인가요?
최신 400G NDR 및 800G XDR 트랜시버는 4레인 또는 8레인 병렬 광학을 사용합니다. 8-광섬유 MPO 정렬은 4x Tx 및 4x Rx 구성과 완벽하게 일치합니다. 8-광섬유 활성 MPO 트렁크를 사용하면 클러스터 패브릭 내에서 ‘다크(미사용)’ 또는 낭비되는 광섬유를 제거할 수 있습니다.
+ APC (Angled Physical Contact) 연마의 중요성은 무엇인가요?
고속 100G-PAM4 신호는 역반사에 매우 민감합니다. APC 커넥터의 8도 각도는 반사된 빛이 광섬유 클래딩에 흡수되도록 보장하여 오류 없는 AI 훈련에 필요한 높은 광학 반사 손실(ORL)을 유지합니다.
+ 광섬유 밀도가 액체 냉각 AI 홀에 어떤 영향을 미치나요?
액체 냉각 트레이를 사용하더라도 2차 열을 관리하기 위해 공기가 여전히 순환해야 합니다. 고밀도 SmartRibbon 케이블을 사용하면 케이블 직경이 크게 줄어들어 물리적 케이블링이 공기 흐름이나 액체 냉각 매니폴드를 방해하지 않도록 합니다.
+ SU 수준 케이블링의 거리 제한은 무엇인가요?
멀티모드(OM4/OM5)는 400G/800G의 경우 50미터로 제한됩니다. 이를 초과하는 중앙 집중식 스파인-코어 링크의 경우, 신호 저하 없이 더 긴 거리를 지원하기 위해 단일 모드 G.657.A1 광섬유가 필수적입니다.
+ AI 데이터센터 백본에 표준 실외용 케이블을 사용할 수 있나요?
아니요. 실내 AI 홀은 현지 규정에 따라 필요한 화재 안전 규정을 충족하기 위해 LSZH (Low Smoke Zero Halogen), 라이저 또는 플레넘 케이블이 필요합니다. 고밀도 경로의 경우, 특수 SlimCORE 실내 케이블이 감소된 직경으로 필요한 가닥 수를 제공합니다.
+ SU에서 공장 종단 피그테일의 이점은 무엇인가요?
MPO 코드 광섬유 피그테일은 스파인 또는 코어 계층에서 빠른 대량 융착 접속을 가능하게 합니다. 한쪽 끝에서 공장 제어 방식으로 종단되어 사전 종단의 이점을 제공하며, ‘블런트(비종단)’ 끝은 현장에서 필요한 길이로 유연하게 맞출 수 있도록 합니다.

AI 팩토리 설계

ScaleFibre는 NVIDIA DGX SuperPOD 배포를 위한 사전 종단 케이블링 솔루션을 제공합니다.

문의하기

NVIDIA DGX SU를 위한 고밀도 광섬유 트렁크에 대한 자세한 정보를 얻으세요.

공유하기: