요약 : GPU 서버 성능은 GPU 개수만으로 결정되지 않는다. Disk→DRAM→CPU→PCIe→GPU Memory→GPU 흐름, HBM 메모리 대역폭, 그리고 GPU 간 PCIe/NVLink/NVSwitch topology가 함께 성능을 결정한다.
서버에서 Disk 데이터를 DRAM으로 가져와 CPU가 연산하는 흐름 : (단순 Flow) Disk → DRAM → CPU(연산)
Disk Controller가 DMA를 사용해 Disk 데이터를 DRAM으로 데이터를 옮기고, CPU는 DRAM에 올라온 데이터를 Cache로 읽어와 연산.
흐름

**Application**
→ read() / mmap()
**→ Linux Kernel**
→ Page Cache 확인
→ Disk I/O 요청 생성
**→ NVMe/SATA (Disk) Controller**
**→ DMA로 Disk Data를 DRAM에 적재 # Disk -> DRAM**
**→ CPU가 DRAM에서 데이터를 읽어 Cache로 가져옴 # DRAM -> CPU**
→ CPU Core가 연산
→ 결과를 Register/Cache/DRAM/File로 저장
(참고) DMA Direct Memory Access 역할
GPU를 사용하는 코드 실행 시, CPU/GPU 연산 흐름 : Disk → DRAM → CPU → PCIe/NVLink → GPU Memory → GPU(연산)
(약식) 구성 요소 : Disk - DRAM - CPU - PCIe/NVLink - GPU - GPU Memory

https://docs.nvidia.com/cuda/cuda-programming-guide/01-introduction/programming-model.html
Disk → System DRAM → CPU → PCIe → GPU Memory → GPU(연산) ⇒ (결과 리턴) GPU Memory → PCIe → DRAM → CPU
요약
정리
Disk 데이터는 CPU DRAM 옮겨가고, 다시 GPU Memory로 옮겨간 후, GPU 내부로 옮겨간 후 GPU가 연산 수행!

출처 toss tech : https://toss.tech/article/securities_llm_2
병목(메모리 대역폭) 이해를 위한 추천 정보
GPU 연산 코어 Compute Core는 충분히 빠른데, 메모리에서 데이터를 가져오는데 병목이 발생 ⇒ GPU 입장에서 ‘데이터 기아’ 상태
HBM High Bandwidth Memory : 처리 속도가 아닌 너비(Interface Width)를 확장 ← 이를 위해 DRAM 칩을 수직으로 쌓아올림


https://youtu.be/D0LxcXu9W3M?si=WcN9wbVwiZo8eujG&t=489

GPU는 메모리가 데이터를 공급하는 속도보다 훨씬 빠르게 연산을 처리할 수 있습니다.
"메모리 장벽 The Memory Wall"
2026년 1월, 구글의 샤오위 마와 튜링상 수상자 데이비드 패터슨이 발표한 논문은 이 문제에 대해 정확한 수치를 제시합니다.
GPU 연산 능력은 2012년부터 2022년까지 80배 증가했지만, 메모리 대역폭은 17배만 증가했습니다.
80 ÷ 17 ≈ 4.7이므로, 연산 성능과 메모리 공급 능력 사이의 상대적 불균형이 약 4.7배 확대됐다4.7배라는 격차를 "메모리 장벽 The Memory Wall"이라고 부르는데, 이 현상은 나아지기는커녕 악화되고 있습니다.

https://theaiengineer.substack.com/p/why-is-inference-slow-and-expensive

https://qtscott.tistory.com/1 지난 10여 년간 GPU의 연산 성능 증가폭은 메모리 대역폭 증가폭을 크게 앞질렀다
The Evolution of NVIDIA GPUs and Interconnects : ‘칩(다이) → Rack 간’ - Blog ⇒ 해당 원글에 스샷을 포함하여 정리하였습니다.

https://medium.com/@dk02315/from-a100-to-b300-the-evolution-of-nvidia-gpus-and-interconnects-d01a892bd306
용어 정리
**Die** = 실제 회로가 새겨진 실리콘 조각
**Chiplet** = 특정 기능을 담당하는 작은 die
**Chip** = die/chiplet을 패키징한 제품 또는 넓은 의미의 반도체 칩
**Package** = die/chiplet을 담고 외부와 연결하는 물리 단위
**C2C** = die/chiplet/chip 사이를 연결하는 인터커넥트
| 용어 | 쉽게 말하면 | 예시 |
|---|---|---|
| Wafer | 반도체를 한꺼번에 만드는 원판 | 300mm 실리콘 웨이퍼 |
| Die | 웨이퍼에서 잘라낸 실제 회로 조각 | GPU die, CPU die |
| Chip | 패키징되어 제품처럼 쓰이는 반도체 부품 | CPU chip, GPU chip |
| Chiplet | 하나의 큰 칩을 여러 작은 기능 die로 나눈 조각 | CPU compute chiplet, I/O die |
| Package | die/chiplet을 올리고 외부 핀·전원·신호를 연결하는 물리 제품 | CPU 패키지, GPU 패키지 |
| Interposer | 여러 die를 고밀도로 연결하는 중간 연결판 | GPU + HBM 연결 |
| Substrate | 패키지 내부에서 die와 메인보드를 연결하는 기판 | organic substrate |
| C2C | chip-to-chip 또는 die-to-die 고속 연결 | NVLink-C2C, UCIe |
| SiP | 여러 칩을 하나의 패키지로 묶은 제품 | CPU+GPU superchip |
다이 ↔ 다이 Die : NV-HBI (High-Bandwidth Interface)

한 패키지 안에서 GPU 다이 Die 두 개를 직접 붙이는 기술이다.
Blackwell은 칩 하나가 사실 다이 두 개인데, 이 둘을 약 10 TB/s로 이어 운영체제에는 단일 GPU로 보이게 만든다.

https://developer.nvidia.com/blog/inside-nvidia-blackwell-ultra-the-chip-powering-the-ai-factory-era/
NVLink-C2C (Chip-to-Chip) : NVSwitch 에 per GPU가 BW가 더 크지만, 칩 간 연결이라서 두번째로 설명함 - Link
NVSwitch Fabric > NVLink Bridge > PCIe