요약 : GPU 서버 성능은 GPU 개수만으로 결정되지 않는다. Disk→DRAM→CPU→PCIe→GPU Memory→GPU 흐름, HBM 메모리 대역폭, 그리고 GPU 간 PCIe/NVLink/NVSwitch topology가 함께 성능을 결정한다.

  1. GPU 클러스터의 주된 병목은 메모리 대역폭이다.
  2. GPU는 계산은 매우 빠르지만, 데이터를 HBM쪽에서 충분히 빨리 공급받지 못하면 GPU는 대기한다.
  3. Multi-GPU 서버에서는 GPU 개수보다 GPU 간 연결 구조가 더 중요하다.
  4. PCIe-only, NVLink pair, 4-way NVLink domain, HGX NVSwitch fabric은 성능 특성이 완전히 다르다.
  5. 대형 LLM 학습/추론에서는 GPU 간 activation, intermediate tensor, KV cache, gradient 교환이 critical path에 들어간다.
  6. NVSwitch 기반 HGX 구조는 GPU 간 통신을 가장 균일하게 만들어 대형 모델에 유리하다.

기초 지식

GPU 클러스터 주된 병목 : 메모리 대역폭

GPU Interconnect Bandwidth

  1. 다이 ↔ 다이 Die : NV-HBI (High-Bandwidth Interface)

    image.png

  2. NVLink-C2C (Chip-to-Chip) : NVSwitch 에 per GPU가 BW가 더 크지만, 칩 간 연결이라서 두번째로 설명함 - Link

  3. NVSwitch Fabric > NVLink Bridge > PCIe