HPC & GPU Engineering/Platform Essentials

📘 고성능 AI 컴퓨팅 인프라 용어 사전 (2) – HBM이란 무엇인가?

ygtoken 2025. 8. 3. 15:26
728x90

 

이번 글에서는 이러한 Accelerator와 직접 연결되는 고성능 메모리인 **HBM(High Bandwidth Memory)**에 대해 다루어보겠습니다.

 

HBM은 GPU나 Accelerator의 성능을 100% 발휘하게 만들어주는 숨은 핵심 요소입니다.

 


HBM이란?

 

HBM(High Bandwidth Memory)은 이름 그대로 고대역폭 메모리입니다.

전통적인 메모리인 GDDR6보다 훨씬 넓은 대역폭을 제공하며, GPU와 같은 고속 연산 장치의 메모리 병목을 줄이기 위해 개발되었습니다.

 

HBM은 다음과 같은 특징을 가집니다:

 

  • 3D TSV(Through Silicon Via) 기술을 활용하여 DRAM을 수직으로 쌓아 연결
  • 메모리와 연산 유닛(GPU die)이 같은 패키지 내에 배치되어 데이터 이동 지연 감소
  • 최대 수 TB/s 단위의 대역폭 제공, GDDR 대비 수 배 이상

 


왜 중요한가?

 

GPU나 Accelerator가 아무리 빠르더라도, 데이터를 읽어오는 속도가 느리면 성능이 제한됩니다.

이를 메모리 병목(memory bottleneck)이라고 부르며, 이를 해결하기 위해 HBM이 반드시 필요합니다.

 

특히 다음과 같은 이유로 HBM은 AI 인프라에 필수적입니다:

 

  • 대규모 AI 모델의 파라미터와 중간 텐서를 빠르게 불러오기 위해 고속 메모리 필요
  • 모델 학습 중 backpropagation(역전파) 단계에서 수많은 read/write 발생
  • 병렬 연산을 위한 대량의 데이터 스트리밍 처리에 적합
  • HBM은 연산 유닛 바로 옆에 위치해 PCIe/NVLink보다도 낮은 레이턴시 제공

 


실무에서 어떻게 쓰이나?

 

  • NVIDIA A100/H100 GPU는 각각 HBM2, HBM3를 내장하고 있으며, 최대 3TB/s 이상의 메모리 대역폭을 제공합니다.
  • AMD의 MI250 GPU 또한 HBM2e 기반으로 높은 대역폭을 제공하며, HPC와 AI 워크로드에 모두 활용됩니다.
  • Google TPU v4 역시 자체 HBM을 통해 텐서 처리 성능을 끌어올립니다.
  • 실무에서는 다음과 같은 연계 고려가 필요합니다:
    • HBM 용량 < 모델 사이즈 → 메모리 paging 발생, 성능 저하
    • 다중 GPU 구성 시 HBM 간 데이터 동기화가 핵심 병목
    • MIG 환경에서는 HBM도 논리 분할되어 할당됨
  •  

 


HBM과 일반 GPU 메모리 비교

항목 GDDR6 (일반 GPU 메모리) HBM2 / HBM3
대역폭 약 400~600 GB/s 1.2~3.0 TB/s
구조 GPU 외부에 장착 GPU die 옆에 수직 적층
레이턴시 상대적으로 높음 매우 낮음
용도 보급형 GPU, 게임용 등 고성능 AI, HPC, 데이터센터용
대표 제품 RTX 4080 등 A100, H100, MI250, TPU v4 등

 


마지막으로

 

HBM은 단순한 “빠른 메모리” 그 이상입니다.

GPU와 함께 묶여 동작하며, 전체 시스템의 처리 속도, 응답 지연, 모델 적재 효율에 직접적인 영향을 미칩니다.

또한, GPU 간 통신이나 스케줄링, 메모리 격리(MIG 등)를 논할 때에도 HBM 구조를 이해하고 있어야 병목 현상이나 성능 저하의 원인 분석이 가능합니다.

 

728x90