[기초부터 이해하는 GPU Network] 1. GPU Interconnect Bandwidth

요약 : GPU 서버 성능은 GPU 개수만으로 결정되지 않는다. Disk→DRAM→CPU→PCIe→GPU Memory→GPU 흐름, HBM 메모리 대역폭, 그리고 GPU 간 PCIe/NVLink/NVSwitch topology가 함께 성능을 결정한다.

GPU 클러스터의 주된 병목은 메모리 대역폭이다.
GPU는 계산은 매우 빠르지만, 데이터를 HBM쪽에서 충분히 빨리 공급받지 못하면 GPU는 대기한다.
Multi-GPU 서버에서는 GPU 개수보다 GPU 간 연결 구조가 더 중요하다.
PCIe-only, NVLink pair, 4-way NVLink domain, HGX NVSwitch fabric은 성능 특성이 완전히 다르다.
대형 LLM 학습/추론에서는 GPU 간 activation, intermediate tensor, KV cache, gradient 교환이 critical path에 들어간다.
NVSwitch 기반 HGX 구조는 GPU 간 통신을 가장 균일하게 만들어 대형 모델에 유리하다.

기초 지식

서버에서 Disk 데이터를 DRAM으로 가져와 CPU가 연산하는 흐름 : (단순 Flow) Disk → DRAM → CPU(연산)
- Disk Controller가 DMA를 사용해 Disk 데이터를 DRAM으로 데이터를 옮기고, CPU는 DRAM에 올라온 데이터를 Cache로 읽어와 연산.
- 흐름
```
**Application**
→ read() / mmap()
**→ Linux Kernel**
→ Page Cache 확인
→ Disk I/O 요청 생성
**→ NVMe/SATA (Disk) Controller**
**→ DMA로 Disk Data를 DRAM에 적재           # Disk -> DRAM**
**→ CPU가 DRAM에서 데이터를 읽어 Cache로 가져옴  # DRAM -> CPU**
→ CPU Core가 연산
→ 결과를 Register/Cache/DRAM/File로 저장
```
  - 글 서술 시, 쉬운 이해를 위해 CPU 내부에 L1/L2/L3 Cache 와 Register 생략하고 CPU로 표현합니다.
- (참고) DMA Direct Memory Access 역할
  - Disk Controller가 CPU를 거치지 않고 DRAM에 직접 데이터를 씀 ⇒ 대량 데이터 이동은 Controller가 하고, CPU는 제어와 연산에 집중.
  - DMA없을 경우 ⇒ CPU가 Disk Controller에서 데이터를 하나씩 읽고 DRAM에 써야 합니다. CPU가 데이터 복사 작업에 계속 묶임.
GPU를 사용하는 코드 실행 시, CPU/GPU 연산 흐름 : Disk → DRAM → CPU → PCIe/NVLink → GPU Memory → GPU(연산)
- (약식) 구성 요소 : Disk - DRAM - CPU - PCIe/NVLink - GPU - GPU Memory
  
  https://docs.nvidia.com/cuda/cuda-programming-guide/01-introduction/programming-model.html
- Disk → System DRAM → CPU → PCIe → GPU Memory → GPU(연산) ⇒ (결과 리턴) GPU Memory → PCIe → DRAM → CPU
  1. Disk → DRAM : dataset, model weight, checkpoint 같은 데이터가 디스크에서 서버 메인 메모리인 System DRAM으로 올라온다.
  2. DRAM → CPU : CPU가 DRAM에 있는 데이터를 읽어서 전처리, batch 구성, tensor 생성, 실행 흐름 제어를 한다.
  3. CPU → PCIe : CPU가 GPU 연산을 요청하고, 필요한 tensor를 GPU 쪽으로 보내기 위해 PCIe 전송을 시작한다.
  4. PCIe → GPU Memory : 입력 tensor나 model weight가 PCIe를 통해 GPU 전용 메모리로 복사된다.
  5. GPU Memory → GPU(연산) : GPU가 GPU Memory에 있는 데이터를 읽어서 GPU kernel을 실행한다.
  6. GPU → (결과 리턴) GPU Memory : GPU 연산 결과는 다시 GPU Memory에 저장된다. 다음 layer나 다음 GPU kernel이 있으면 CPU로 돌아가지 않고 HBM 안에서 계속 이어진다.
  7. GPU Memory → PCIe → DRAM → CPU : 최종 결과를 CPU가 필요로 하면 GPU Memory의 결과가 PCIe를 통해 DRAM으로 복사되고, CPU가 그 값을 읽어서 출력, 저장, 후처리를 한다.
- 요약
  - 입력 준비: Disk → DRAM → CPU
  - GPU로 전달: CPU → PCIe → GPU Memory
  - GPU 연산: GPU Memory ↔ GPU
  - 결과 회수: GPU Memory → PCIe → DRAM → CPU
- 정리
  - Disk 데이터는 CPU DRAM 옮겨가고, 다시 GPU Memory로 옮겨간 후, GPU 내부로 옮겨간 후 GPU가 연산 수행!
    
    출처 toss tech : https://toss.tech/article/securities_llm_2

GPU 클러스터 주된 병목 : 메모리 대역폭

병목(메모리 대역폭) 이해를 위한 추천 정보
- [안될공학] GPU만 빠르면 뭐해? ... HBM과 CoWoS가 없어서 못 팔게된 이유 | AI 인프라 5가지 병목 - Youtube
- https://velog.io/@infra_manager/GPU는-왜-AI에서-필수가-되었나#5-병목-메모리
- Why is Inference Slow and Expensive? - Blog
GPU 연산 코어 Compute Core는 충분히 빠른데, 메모리에서 데이터를 가져오는데 병목이 발생 ⇒ GPU 입장에서 ‘데이터 기아’ 상태
- HBM High Bandwidth Memory : 처리 속도가 아닌 너비(Interface Width)를 확장 ← 이를 위해 DRAM 칩을 수직으로 쌓아올림
  - 기존의 GPU/CPU 와 Memory 연결이 불가능 → (반도체 웨이퍼를 가공해서 만든)실리콘 인터포저에 GPU와 HBM을 연결
  https://namu.wiki/w/HBM
  
  https://youtu.be/D0LxcXu9W3M?si=WcN9wbVwiZo8eujG&t=489
  
  https://theaiengineer.substack.com/p/what-is-a-gpu
- GPU는 메모리가 데이터를 공급하는 속도보다 훨씬 빠르게 연산을 처리할 수 있습니다.
  - 텍스트 생성 과정에서 고가의 GPU는 아무런 작업도 하지 않고 대기 상태에 놓이게 됩니다.
"메모리 장벽 The Memory Wall"
- 2026년 1월, 구글의 샤오위 마와 튜링상 수상자 데이비드 패터슨이 발표한 논문은 이 문제에 대해 정확한 수치를 제시합니다.
  - LLM 학습과 Prefill은 연산 성능이 중요하지만, 토큰을 한 개씩 만드는 Decode는 GPU FLOPS보다 메모리 대역폭과 인터커넥트 지연시간에 더 크게 제한된다,
- GPU 연산 능력은 2012년부터 2022년까지 80배 증가했지만, 메모리 대역폭은 17배만 증가했습니다.
  - 2012~2022년 NVIDIA GPU의 FP64 연산 성능은 80배, 메모리 대역폭은 17배 증가했습니다. 80 ÷ 17 ≈ 4.7이므로, 연산 성능과 메모리 공급 능력 사이의 상대적 불균형이 약 4.7배 확대됐다
- 4.7배라는 격차를 "메모리 장벽 The Memory Wall"이라고 부르는데, 이 현상은 나아지기는커녕 악화되고 있습니다.
  
  https://theaiengineer.substack.com/p/why-is-inference-slow-and-expensive
  
  https://qtscott.tistory.com/1 지난 10여 년간 GPU의 연산 성능 증가폭은 메모리 대역폭 증가폭을 크게 앞질렀다

GPU Interconnect Bandwidth

The Evolution of NVIDIA GPUs and Interconnects : ‘칩(다이) → Rack 간’ - Blog ⇒ 해당 원글에 스샷을 포함하여 정리하였습니다.

https://medium.com/@dk02315/from-a100-to-b300-the-evolution-of-nvidia-gpus-and-interconnects-d01a892bd306

용어 정리

**Die** = 실제 회로가 새겨진 실리콘 조각
**Chiplet** = 특정 기능을 담당하는 작은 die
**Chip** = die/chiplet을 패키징한 제품 또는 넓은 의미의 반도체 칩
**Package** = die/chiplet을 담고 외부와 연결하는 물리 단위
**C2C** = die/chiplet/chip 사이를 연결하는 인터커넥트

용어	쉽게 말하면	예시
Wafer	반도체를 한꺼번에 만드는 원판	300mm 실리콘 웨이퍼
Die	웨이퍼에서 잘라낸 실제 회로 조각	GPU die, CPU die
Chip	패키징되어 제품처럼 쓰이는 반도체 부품	CPU chip, GPU chip
Chiplet	하나의 큰 칩을 여러 작은 기능 die로 나눈 조각	CPU compute chiplet, I/O die
Package	die/chiplet을 올리고 외부 핀·전원·신호를 연결하는 물리 제품	CPU 패키지, GPU 패키지
Interposer	여러 die를 고밀도로 연결하는 중간 연결판	GPU + HBM 연결
Substrate	패키지 내부에서 die와 메인보드를 연결하는 기판	organic substrate
C2C	chip-to-chip 또는 die-to-die 고속 연결	NVLink-C2C, UCIe
SiP	여러 칩을 하나의 패키지로 묶은 제품	CPU+GPU superchip

다이 ↔ 다이 Die : NV-HBI (High-Bandwidth Interface)
- 한 패키지 안에서 GPU 다이 Die 두 개를 직접 붙이는 기술이다.
- Blackwell은 칩 하나가 사실 다이 두 개인데, 이 둘을 약 10 TB/s로 이어 운영체제에는 단일 GPU로 보이게 만든다.
  
  https://developer.nvidia.com/blog/inside-nvidia-blackwell-ultra-the-chip-powering-the-ai-factory-era/
NVLink-C2C (Chip-to-Chip) : NVSwitch 에 per GPU가 BW가 더 크지만, 칩 간 연결이라서 두번째로 설명함 - Link
NVSwitch Fabric > NVLink Bridge > PCIe