สถาปัตยกรรมโครงสร้างพื้นฐาน

โครงสร้างพื้นฐาน NVIDIA GB200 NVL72 และการเดินสาย MPO-8 APC สำหรับหน่วยปรับขนาดได้ (Scalable Units)

เจาะลึกสถาปัตยกรรมการเดินสายของ Blackwell Scalable Unit (SU) ที่ 8 แร็คเชื่อมต่อกันด้วยสายใยแก้วนำแสงที่ใช้งานอยู่ 9,216 เส้น

DGX GB200 Scalable Unit (SU) แสดงถึงการเปลี่ยนแปลงครั้งสำคัญในสถาปัตยกรรมศูนย์ข้อมูล SU เป็นหน่วยประมวลผล 576-GPU ที่รวมเข้าด้วยกันและเชื่อมต่อกันด้วยสายใยแก้วนำแสงที่ใช้งานอยู่ 9,216 เส้น ScaleFibre นำเสนอสายหลักที่สิ้นสุดปลายสายอย่างแม่นยำ ซึ่งจำเป็นต่อการจัดการความหนาแน่นนี้

โครงสร้างเครือข่าย SuperPOD ทางกายภาพ 4 แบบ

NVIDIA แบ่ง SU ออกเป็นชั้นทางกายภาพที่แตกต่างกันเพื่อแยกทราฟฟิก GPU

MN-NVL (NVLink 5)

ขยายในแนวตั้ง (Scale-Up)

เครือข่าย ‘ภายใน’ แร็คที่เชื่อมต่อ GPU 72 ตัวด้วยความเร็ว 1.8 TB/s

  • ไม่มีใยแก้วนำแสง
  • แบ็คเพลนทองแดงแบบพาสซีฟ
  • คอนเนคเตอร์แบบ Blind-mate

InfiniBand สำหรับการประมวลผล

ขยายในแนวนอน (Scale-Out)

โครงสร้างเครือข่าย ‘East-West’ หลักสำหรับการฝึกอบรมหลายโหนดขนาดใหญ่

  • ใยแก้วนำแสงที่ใช้งานอยู่ 4,608 เส้นต่อ SU
  • โทโพโลยีที่ปรับให้เหมาะสมกับราง
  • Quantum-3/Quantum-2

พื้นที่จัดเก็บและ In-Band

ส่วนหน้า

โครงสร้างเครือข่ายแบบ Ethernet สำหรับการนำเข้าข้อมูลและการจัดเตรียมที่ความเร็วสูง

  • ปัจจัยการบล็อก 5:3
  • BlueField-3 DPU offload
  • รองรับ VXLAN/RoCE

การจัดการ OOB (Out-of-Band)

ระนาบควบคุม

เครือข่ายแยกสำหรับระบบ Telemetry ของฮาร์ดแวร์, BMC และการจัดการ PDU

  • RJ45/Cat6 ทองแดง
  • สวิตช์ระดับ SN2201
  • ความปลอดภัยแบบ Physical air-gap

เมตริก SU ระดับ Exascale

Scalable Unit (SU) 8 แร็คแสดงถึงองค์ประกอบพื้นฐานของ NVIDIA AI Factory

9,216

ใยแก้วนำแสงที่ใช้งานต่อ SU

4,608

สายใยแก้วนำแสงสำหรับการประมวลผลเท่านั้น

5:3

อัตราส่วนการบล็อกของพื้นที่จัดเก็บ

400G/800G

ความเร็วพอร์ตพื้นฐาน

การเชื่อมต่อ SU สามระดับ

1
ระดับ A: เซิร์ฟเวอร์ไปยังลีฟสวิตช์

ใยแก้วนำแสง 1,152 เส้นต่อแร็ค โดยใช้สายหลักใยแก้วนำแสงจำนวนมากหรือสายจัมเปอร์เพื่อเชื่อมต่อโหนด NVL72 กับลีฟสวิตช์

2
ระดับ B: ลีฟสวิตช์ไปยังสไปน์สวิตช์

การรวมทราฟฟิกที่จัดแนวรางภายใน SU โดยใช้ลิงก์แบบ 1:1 ที่ไม่บล็อกสำหรับการประมวลผล

3
ระดับ C: สไปน์สวิตช์ไปยังคอร์สวิตช์

การขยายขนาดเกินกว่า SU ไปยังพื้นที่คอร์ส่วนกลางโดยใช้สายหลักจำนวนมาก

การเชื่อมต่อแบบดั้งเดิม (Point-to-Point)

  • ความซับซ้อนด้วยมือ: ต้องใช้สายแพทช์เดี่ยว 9,216 เส้นต่อบล็อก 8 แร็ค
  • การอุดตันของกระแสลม: ชุดสายเคเบิลหนาแน่นขัดขวางทางออกของระบบระบายความร้อนด้วยของเหลว
  • โปรไฟล์ความเสี่ยง: มีโอกาสสูงที่จะเกิด ‘การเชื่อมต่อผิดพลาด’ ระหว่างการแพทช์แบบ 1:1 ด้วยมือ
  • เวลาในการติดตั้ง: มากกว่า 115 ชั่วโมงสำหรับการเดินสายและการติดฉลากด้วยมือต่อ SU

การเดินสายหลักแบบโมดูลาร์ใยแก้วนำแสงจำนวนมาก

  • Plug-and-Play: รวมใยแก้วนำแสงหลายพันเส้นเข้าเป็นสายหลักสำเร็จรูปที่ปรับแต่งได้ เช่น 128F/144F/256F/288F/576F
  • การเพิ่มประสิทธิภาพทางความร้อน: สายเคเบิลเส้นผ่านศูนย์กลางเล็กช่วยเพิ่มการไหลเวียนของอากาศในแร็คที่หนาแน่น
  • ประสิทธิภาพเส้นทาง: รวมใยแก้วนำแสงที่ใช้งานอยู่ 1,152 เส้นต่อแร็คเข้ากับสายหลัก MPO จำนวนมาก
  • โปรไฟล์การติดตั้ง: ติดตั้งรวดเร็วผ่านชุดประกอบที่ทดสอบจากโรงงานและมีการสิ้นสุดปลายสายล่วงหน้า

การเติบโตของใยแก้วนำแสงที่ใช้งาน: จากโหนดถึง SuperPOD เต็มรูปแบบ

ความซับซ้อนของการเดินสาย
ใยแก้วนำแสงที่ใช้งานอยู่ 9,216 เส้นต่อ SU จำเป็นต้องใช้สายหลักใยแก้วนำแสงจำนวนมากแบบโมดูลาร์เพื่อหลีกเลี่ยง 'ความยุ่งเหยิงของสายเคเบิล' ที่ขัดขวางการไหลเวียนของอากาศ

ภาพจำลอง Scalable Unit

บล็อกการประมวลผล 8 แร็ค
บล็อกการประมวลผล 8 แร็ค

NVIDIA GB200 SU (Scalable Unit) ประกอบด้วย 8 แร็ค แต่ละแร็คมีระบบ DGX GB200 NVL72 พร้อม GPU 72 ตัว

การกระจายสายหลักใยแก้วนำแสงจำนวนมาก
การกระจายสายหลักใยแก้วนำแสงจำนวนมาก

รวมใยแก้วนำแสงหลายพันเส้นในแร็คเข้าเป็นสายหลักความหนาแน่นสูง เพื่อให้มีพื้นที่สำหรับกระแสลม, การติดตั้งที่รวดเร็ว และการใช้เส้นทางน้อยที่สุด

การระบายความร้อนด้วยของเหลว
การระบายความร้อนด้วยของเหลว

แผ่นทำความเย็นที่ระบายความร้อนด้วยของเหลวช่วยรักษาสภาพแวดล้อมของถาดให้คงที่ ทำให้ OSFP ทรานส์ซีฟเวอร์ระบายความร้อนได้อย่างมีประสิทธิภาพผ่านฮีทซิงค์

Technical FAQ

+ จำนวนใยแก้วนำแสง 9,216 เส้นใน SU สามารถจัดการได้อย่างไร?
โดยใช้ลำดับชั้นการเดินสายเคเบิลแบบหลายระดับ สายหลักใยแก้วนำแสงจำนวนมาก เข้ามาแทนที่สายแพทช์ MPO แต่ละเส้นนับพัน ทำให้ลดปริมาณทางกายภาพและป้องกันการอุดตันของการระบายความร้อน
+ 'ปัจจัยการบล็อก 5:3' ในโครงสร้างเครือข่ายจัดเก็บข้อมูลคืออะไร?
แตกต่างจากโครงสร้างเครือข่ายการประมวลผลแบบไม่บล็อก (1:1) เครือข่ายจัดเก็บข้อมูลมีการสมัครเกิน (oversubscribed) โดยเจตนา ซึ่งช่วยลดต้นทุนและความซับซ้อนของใยแก้วนำแสง ขณะที่ยังคงตรงตามข้อกำหนด 40GB/s ต่อโหนดสำหรับพื้นที่จัดเก็บ โดยทั่วไปการติดตั้งจะใช้ สายแพทช์ MPO ที่เข้ากันได้กับ NVIDIA
+ ทำไมโครงสร้างเครือข่าย NVLink ภายในจึงไม่มีใยแก้วนำแสง?
NVIDIA ใช้แบ็คเพลนทองแดงแบบพาสซีฟและคาร์ทริดจ์สายเคเบิลภายในแร็ค NVL72 ซึ่งช่วยลดทรานส์ซีฟเวอร์และใยแก้วนำแสงนับพัน ทำให้ลดการใช้พลังงานและ Latency ได้อย่างมาก ใยแก้วนำแสงถูกสงวนไว้สำหรับ โครงสร้างเครือข่ายการประมวลผลแบบ Scale-out
+ จะเกิดอะไรขึ้นเมื่อเราขยายขนาดเป็น 16 Scalable Units?
ที่ขนาด 16 SU (GPU 9,216 ตัว) จำนวนใยแก้วนำแสงที่ใช้งานทั้งหมดสำหรับโครงสร้างเครือข่ายการประมวลผลเพียงอย่างเดียวจะสูงถึง 18,432 เส้น การจัดการความหนาแน่นนี้จำเป็นต้องใช้ เฮาส์ซิ่งความหนาแน่นสูง ที่ออกแบบมาโดยเฉพาะสำหรับใยแก้วนำแสงจำนวนมากและสถาปัตยกรรมการสลับกลุ่มคอร์แบบรวมศูนย์
+ ทำไมจึงใช้ MPO-8 แทน MPO-12 มาตรฐาน?
ทรานส์ซีฟเวอร์ 400G NDR และ 800G XDR สมัยใหม่ใช้เลน 4 หรือ 8 เลนสำหรับ Parallel Optics การจัดเรียง MPO 8 ไฟเบอร์เข้าคู่กับการกำหนดค่า 4x Tx และ 4x Rx ได้อย่างสมบูรณ์แบบ การใช้ สายหลัก MPO แบบ 8 ไฟเบอร์ active ช่วยขจัดใยแก้วนำแสงที่ ‘มืด’ หรือเสียเปล่าภายในโครงสร้างเครือข่ายคลัสเตอร์
+ ความสำคัญของการขัดเงาแบบ APC (Angled Physical Contact) คืออะไร?
สัญญาณ 100G-PAM4 ความเร็วสูงมีความไวสูงต่อการสะท้อนกลับ (back-reflections) มุม 8 องศาของ คอนเนคเตอร์ APC ช่วยให้มั่นใจว่าแสงสะท้อนจะถูกดูดซับเข้าสู่ส่วนหุ้มใยแก้วนำแสง (fiber cladding) ซึ่งรักษาระดับ Optical Return Loss (ORL) ที่สูงซึ่งจำเป็นสำหรับการฝึกอบรม AI ที่ปราศจากข้อผิดพลาด
+ ความหนาแน่นของใยแก้วนำแสงส่งผลกระทบต่อห้อง AI ที่ระบายความร้อนด้วยของเหลวอย่างไร?
แม้จะมีถาดระบายความร้อนด้วยของเหลว อากาศก็ยังคงต้องหมุนเวียนเพื่อจัดการความร้อนรอง การใช้ สายเคเบิล SmartRibbon ที่มีความหนาแน่นสูงช่วยลดเส้นผ่านศูนย์กลางของสายเคเบิลได้อย่างมาก ทำให้มั่นใจว่าการเดินสายทางกายภาพจะไม่ขัดขวางการไหลเวียนของอากาศหรือท่อระบายความร้อนด้วยของเหลว
+ ข้อจำกัดระยะทางสำหรับการเดินสายระดับ SU คืออะไร?
Multimode (OM4/OM5) ถูกจำกัดระยะทางไว้ที่ 50 เมตรสำหรับ 400G/800G สำหรับลิงก์ Spine-to-Core แบบรวมศูนย์ที่เกินระยะนี้ จำเป็นต้องใช้ ใยแก้วนำแสง Single-mode G.657.A1 เพื่อรองรับระยะทางที่ไกลขึ้นโดยไม่มีสัญญาณลดทอน
+ ฉันสามารถใช้สายเคเบิลภายนอกอาคารมาตรฐานสำหรับสายหลักของศูนย์ข้อมูล AI ได้หรือไม่?
ไม่ได้ ห้อง AI ภายในอาคารต้องใช้ LSZH (Low Smoke Zero Halogen), Riser หรือ Plenum เพื่อให้เป็นไปตามข้อกำหนดด้านความปลอดภัยจากอัคคีภัยที่จำเป็น ขึ้นอยู่กับข้อบังคับท้องถิ่น สำหรับเส้นทางที่มีความหนาแน่นสูง สายเคเบิลภายในอาคาร SlimCORE ที่เชี่ยวชาญให้จำนวนเส้นใยที่จำเป็นในเส้นผ่านศูนย์กลางที่ลดลง
+ ประโยชน์ของ pigtail ที่สิ้นสุดจากโรงงานใน SU คืออะไร?
สาย pigtail ใยแก้วนำแสง MPO ช่วยให้สามารถเชื่อมต่อแบบ mass-fusion ได้อย่างรวดเร็วที่ชั้น Spine หรือ Core การสิ้นสุดสายที่ควบคุมจากโรงงานที่ปลายด้านหนึ่งให้ประโยชน์ของการติดตั้งสำเร็จรูป ในขณะที่ปลายสายที่ ‘ไม่สำเร็จรูป’ (blunt end) ช่วยให้มีความยืดหยุ่นในการปรับให้เข้ากับความยาวที่ต้องการ ณ สถานที่ติดตั้ง

ออกแบบ AI Factory ของคุณ

ScaleFibre นำเสนอโซลูชันการเดินสายเคเบิลที่ติดตั้งสำเร็จรูปสำหรับการติดตั้ง NVIDIA DGX SuperPOD

ติดต่อเรา

รับรายละเอียดเกี่ยวกับสายหลักใยแก้วนำแสงจำนวนมากสำหรับ NVIDIA DGX SU ของคุณ

แบ่งปัน: