728x90
이번 글에서는 이러한 Accelerator와 직접 연결되는 고성능 메모리인 **HBM(High Bandwidth Memory)**에 대해 다루어보겠습니다.
HBM은 GPU나 Accelerator의 성능을 100% 발휘하게 만들어주는 숨은 핵심 요소입니다.
✅ HBM이란?
HBM(High Bandwidth Memory)은 이름 그대로 고대역폭 메모리입니다.
전통적인 메모리인 GDDR6보다 훨씬 넓은 대역폭을 제공하며, GPU와 같은 고속 연산 장치의 메모리 병목을 줄이기 위해 개발되었습니다.
HBM은 다음과 같은 특징을 가집니다:
- 3D TSV(Through Silicon Via) 기술을 활용하여 DRAM을 수직으로 쌓아 연결
- 메모리와 연산 유닛(GPU die)이 같은 패키지 내에 배치되어 데이터 이동 지연 감소
- 최대 수 TB/s 단위의 대역폭 제공, GDDR 대비 수 배 이상
✅ 왜 중요한가?
GPU나 Accelerator가 아무리 빠르더라도, 데이터를 읽어오는 속도가 느리면 성능이 제한됩니다.
이를 메모리 병목(memory bottleneck)이라고 부르며, 이를 해결하기 위해 HBM이 반드시 필요합니다.
특히 다음과 같은 이유로 HBM은 AI 인프라에 필수적입니다:
- 대규모 AI 모델의 파라미터와 중간 텐서를 빠르게 불러오기 위해 고속 메모리 필요
- 모델 학습 중 backpropagation(역전파) 단계에서 수많은 read/write 발생
- 병렬 연산을 위한 대량의 데이터 스트리밍 처리에 적합
- HBM은 연산 유닛 바로 옆에 위치해 PCIe/NVLink보다도 낮은 레이턴시 제공
✅ 실무에서 어떻게 쓰이나?
- NVIDIA A100/H100 GPU는 각각 HBM2, HBM3를 내장하고 있으며, 최대 3TB/s 이상의 메모리 대역폭을 제공합니다.
- AMD의 MI250 GPU 또한 HBM2e 기반으로 높은 대역폭을 제공하며, HPC와 AI 워크로드에 모두 활용됩니다.
- Google TPU v4 역시 자체 HBM을 통해 텐서 처리 성능을 끌어올립니다.
- 실무에서는 다음과 같은 연계 고려가 필요합니다:
- HBM 용량 < 모델 사이즈 → 메모리 paging 발생, 성능 저하
- 다중 GPU 구성 시 HBM 간 데이터 동기화가 핵심 병목
- MIG 환경에서는 HBM도 논리 분할되어 할당됨
✅ HBM과 일반 GPU 메모리 비교
| 항목 | GDDR6 (일반 GPU 메모리) | HBM2 / HBM3 |
| 대역폭 | 약 400~600 GB/s | 1.2~3.0 TB/s |
| 구조 | GPU 외부에 장착 | GPU die 옆에 수직 적층 |
| 레이턴시 | 상대적으로 높음 | 매우 낮음 |
| 용도 | 보급형 GPU, 게임용 등 | 고성능 AI, HPC, 데이터센터용 |
| 대표 제품 | RTX 4080 등 | A100, H100, MI250, TPU v4 등 |
✅ 마지막으로
HBM은 단순한 “빠른 메모리” 그 이상입니다.
GPU와 함께 묶여 동작하며, 전체 시스템의 처리 속도, 응답 지연, 모델 적재 효율에 직접적인 영향을 미칩니다.
또한, GPU 간 통신이나 스케줄링, 메모리 격리(MIG 등)를 논할 때에도 HBM 구조를 이해하고 있어야 병목 현상이나 성능 저하의 원인 분석이 가능합니다.
728x90
'HPC & GPU Engineering > Platform Essentials' 카테고리의 다른 글
| 📘 고성능 AI 컴퓨팅 인프라 용어 사전 (5) – MIG (Multi-Instance GPU) (1) | 2025.08.03 |
|---|---|
| 📘 고성능 AI 컴퓨팅 인프라 용어 사전 (4) – Distributed Training & Parameter Synchronization (1) | 2025.08.03 |
| 📘 고성능 AI 컴퓨팅 인프라 용어 사전 (3) – NVLink & GPU Fabric (0) | 2025.08.03 |
| 📘 고성능 AI 컴퓨팅 인프라 용어 사전 (1) – Accelerator란 무엇인가? (3) | 2025.08.03 |
| 고성능 AI 컴퓨팅 인프라 기술 키워드 정리 (v1.0) (1) | 2025.08.03 |