HPC & GPU Engineering/Platform Essentials

📘 고성능 AI 컴퓨팅 인프라 용어 사전 (29) – Reserved / Spot Instance: 클라우드 GPU 확보 전략

ygtoken 2025. 8. 4. 22:24
728x90

 

클라우드에서 AI 학습을 할 때

“GPU 인스턴스 너무 비싼데?”,

“다 돌리자니 하루에 수백만 원이 나와요…” 라는 현실적인 고민이 생깁니다.

 

이럴 때 클라우드는 두 가지 옵션을 제공합니다:

 

  • Reserved Instance: 장기 약정으로 할인된 가격에 확보
  • Spot Instance: 남는 자원을 경쟁 입찰로 매우 저렴하게 사용

 

이 두 전략을 적절히 조합하면,

비용은 낮추고, 안정성은 유지하는 고성능 학습이 가능합니다.

 


Reserved Instance란?

 

Reserved Instance(RI)는 GPU 인스턴스를 1년 또는 3년 단위로 예약하고,

일반 On-demand 가격보다 최대 60~70%까지 저렴하게 사용하는 방식입니다.

특징 설명
장기 약정 1년 또는 3년
낮은 단가 최대 70%까지 할인
고정 리전/사양 특정 리전 + GPU 사양에 종속
안정성 ↑ 항상 자원 확보 가능
환불/변경 제한 기간 중 해지/수정 어려움
예: AWS p4d.24xlarge Reserved → 시간당 $3.06 (vs. On-demand $12.24)

 


Spot Instance란?

 

Spot Instance는 클라우드 사업자가 남는 자원을 임시로 저렴하게 판매하는 구조입니다.

가격은 수시로 변동되며, 언제든지 회수(interrupt)될 수 있습니다.

특징설명

초저가 최대 90% 할인
불안정성 ↑ 예고 없이 회수 가능
중단 감내 필요 Checkpointing 등 재시작 전략 필수
단기 실험 적합 일시적 학습, 테스트 용도
다양한 제약 조건 특정 리전, 가용성 낮음
예: GCP A100 Spot → 시간당 $0.39 (vs. On-demand $4.25)

 


Reserved + Spot 조합 전략

방식 설명
핵심 Job → Reserved 필수적이고 장시간 실행되는 Job은 안정성 우선
비핵심 Job → Spot 하이퍼파라미터 탐색, 검증 Job은 Spot으로 실행
Mixed Queue Spot이 가능할 경우 먼저 실행, 안 되면 Reserved로 Fallback
Auto Resume + Checkpointing Spot 중단 시 → 저장된 상태에서 다시 시작

 


스케줄러와 연계

도구 활용 방식
Kubernetes + Cluster Autoscaler Spot 노드 우선 확장
AWS EC2 Fleet / GCP Preemptible Group 자동 Spot 할당
Ray / Kubeflow Pipelines 각 Task별 자원 클래스 지정
TorchElastic + Spot 중단 감지 시 Elastic Recovery

 


실전 적용 팁

 

  • Spot 사용 시 GPU 사용률과 중단률을 함께 모니터링
  • Checkpoint 간격을 촘촘하게 조정하여 손실 최소화
  • 모델 서빙은 가능한 Reserved나 낮은 사양으로
  • “혼합 노드 풀 구성”으로 비용-성능 균형 맞추기

 


마무리

 

클라우드 GPU는 무조건 비쌀 수밖에 없습니다.

하지만 어떤 Job을 어떤 방식으로 배치할지 전략을 세우면,

같은 성능을 훨씬 더 낮은 비용으로 얻을 수 있습니다.

 

Reserved와 Spot은 단순한 가격 옵션이 아니라,

AI 인프라 운영 전략의 핵심 도구입니다.

 

728x90