📘 고성능 AI 컴퓨팅 인프라 용어 사전 (29) – Reserved / Spot Instance: 클라우드 GPU 확보 전략

HPC & GPU Engineering/Platform Essentials

📘 고성능 AI 컴퓨팅 인프라 용어 사전 (29) – Reserved / Spot Instance: 클라우드 GPU 확보 전략

ygtoken 2025. 8. 4. 22:24

728x90

클라우드에서 AI 학습을 할 때

“GPU 인스턴스 너무 비싼데?”,

“다 돌리자니 하루에 수백만 원이 나와요…” 라는 현실적인 고민이 생깁니다.

이럴 때 클라우드는 두 가지 옵션을 제공합니다:

Reserved Instance: 장기 약정으로 할인된 가격에 확보
Spot Instance: 남는 자원을 경쟁 입찰로 매우 저렴하게 사용

이 두 전략을 적절히 조합하면,

비용은 낮추고, 안정성은 유지하는 고성능 학습이 가능합니다.

✅ Reserved Instance란?

Reserved Instance(RI)는 GPU 인스턴스를 1년 또는 3년 단위로 예약하고,

일반 On-demand 가격보다 최대 60~70%까지 저렴하게 사용하는 방식입니다.

특징	설명
장기 약정	1년 또는 3년
낮은 단가	최대 70%까지 할인
고정 리전/사양	특정 리전 + GPU 사양에 종속
안정성 ↑	항상 자원 확보 가능
환불/변경 제한	기간 중 해지/수정 어려움

예: AWS p4d.24xlarge Reserved → 시간당 $3.06 (vs. On-demand $12.24)

✅ Spot Instance란?

Spot Instance는 클라우드 사업자가 남는 자원을 임시로 저렴하게 판매하는 구조입니다.

가격은 수시로 변동되며, 언제든지 회수(interrupt)될 수 있습니다.

특징설명

초저가	최대 90% 할인
불안정성 ↑	예고 없이 회수 가능
중단 감내 필요	Checkpointing 등 재시작 전략 필수
단기 실험 적합	일시적 학습, 테스트 용도
다양한 제약 조건	특정 리전, 가용성 낮음

예: GCP A100 Spot → 시간당 $0.39 (vs. On-demand $4.25)

✅ Reserved + Spot 조합 전략

방식	설명
핵심 Job → Reserved	필수적이고 장시간 실행되는 Job은 안정성 우선
비핵심 Job → Spot	하이퍼파라미터 탐색, 검증 Job은 Spot으로 실행
Mixed Queue	Spot이 가능할 경우 먼저 실행, 안 되면 Reserved로 Fallback
Auto Resume + Checkpointing	Spot 중단 시 → 저장된 상태에서 다시 시작

✅ 스케줄러와 연계

도구	활용 방식
Kubernetes + Cluster Autoscaler	Spot 노드 우선 확장
AWS EC2 Fleet / GCP Preemptible Group	자동 Spot 할당
Ray / Kubeflow Pipelines	각 Task별 자원 클래스 지정
TorchElastic + Spot	중단 감지 시 Elastic Recovery

✅ 실전 적용 팁

Spot 사용 시 GPU 사용률과 중단률을 함께 모니터링
Checkpoint 간격을 촘촘하게 조정하여 손실 최소화
모델 서빙은 가능한 Reserved나 낮은 사양으로
“혼합 노드 풀 구성”으로 비용-성능 균형 맞추기

✅ 마무리

클라우드 GPU는 무조건 비쌀 수밖에 없습니다.

하지만 어떤 Job을 어떤 방식으로 배치할지 전략을 세우면,

같은 성능을 훨씬 더 낮은 비용으로 얻을 수 있습니다.

Reserved와 Spot은 단순한 가격 옵션이 아니라,

AI 인프라 운영 전략의 핵심 도구입니다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'HPC & GPU Engineering > Platform Essentials' 카테고리의 다른 글

📘 고성능 AI 컴퓨팅 인프라 용어 사전 (31) – GPU-aware AutoScaler: 자동 자원 조절 전략 (4)	2025.08.04
📘 고성능 AI 컴퓨팅 인프라 용어 사전 (30) – AI-based Anomaly Detection: 이상 상황을 실시간 감지하라 (2)	2025.08.04
📘 고성능 AI 컴퓨팅 인프라 용어 사전 (28) – Usage-based Billing & TCO Optimization: GPU 클러스터 비용 최적화 전략 (3)	2025.08.04
📘 고성능 AI 컴퓨팅 인프라 용어 사전 (27) – Web-based Model Platform: 협업형 모델 저장소 (2)	2025.08.04
📘 고성능 AI 컴퓨팅 인프라 용어 사전 (26) – Model Versioning: 실험 반복을 위한 버전 관리 전략 (1)	2025.08.04

현재글📘 고성능 AI 컴퓨팅 인프라 용어 사전 (29) – Reserved / Spot Instance: 클라우드 GPU 확보 전략

YG Tech Blog

A blog about IT, covering topics from cloud computing and DevOps to Kubernetes and system architecture. Sharing insights, solutions, and best practices for modern IT professionals

CI/CD, 서비스메시, langchain, Istio, Minio, argocd, YAML, Security, statefulset, 쿠버네티스, kubernetes, k8s, 서비스_운영, 파이썬, gitops, RAG, Python, MLOps, Cilium, DevOps,

Today :
Yesterday :

YG Tech Blog