728x90
클라우드에서 AI 학습을 할 때
“GPU 인스턴스 너무 비싼데?”,
“다 돌리자니 하루에 수백만 원이 나와요…” 라는 현실적인 고민이 생깁니다.
이럴 때 클라우드는 두 가지 옵션을 제공합니다:
- Reserved Instance: 장기 약정으로 할인된 가격에 확보
- Spot Instance: 남는 자원을 경쟁 입찰로 매우 저렴하게 사용
이 두 전략을 적절히 조합하면,
비용은 낮추고, 안정성은 유지하는 고성능 학습이 가능합니다.
✅ Reserved Instance란?
Reserved Instance(RI)는 GPU 인스턴스를 1년 또는 3년 단위로 예약하고,
일반 On-demand 가격보다 최대 60~70%까지 저렴하게 사용하는 방식입니다.
| 특징 | 설명 |
| 장기 약정 | 1년 또는 3년 |
| 낮은 단가 | 최대 70%까지 할인 |
| 고정 리전/사양 | 특정 리전 + GPU 사양에 종속 |
| 안정성 ↑ | 항상 자원 확보 가능 |
| 환불/변경 제한 | 기간 중 해지/수정 어려움 |
예: AWS p4d.24xlarge Reserved → 시간당 $3.06 (vs. On-demand $12.24)
✅ Spot Instance란?
Spot Instance는 클라우드 사업자가 남는 자원을 임시로 저렴하게 판매하는 구조입니다.
가격은 수시로 변동되며, 언제든지 회수(interrupt)될 수 있습니다.
특징설명
| 초저가 | 최대 90% 할인 |
| 불안정성 ↑ | 예고 없이 회수 가능 |
| 중단 감내 필요 | Checkpointing 등 재시작 전략 필수 |
| 단기 실험 적합 | 일시적 학습, 테스트 용도 |
| 다양한 제약 조건 | 특정 리전, 가용성 낮음 |
예: GCP A100 Spot → 시간당 $0.39 (vs. On-demand $4.25)
✅ Reserved + Spot 조합 전략
| 방식 | 설명 |
| 핵심 Job → Reserved | 필수적이고 장시간 실행되는 Job은 안정성 우선 |
| 비핵심 Job → Spot | 하이퍼파라미터 탐색, 검증 Job은 Spot으로 실행 |
| Mixed Queue | Spot이 가능할 경우 먼저 실행, 안 되면 Reserved로 Fallback |
| Auto Resume + Checkpointing | Spot 중단 시 → 저장된 상태에서 다시 시작 |
✅ 스케줄러와 연계
| 도구 | 활용 방식 |
| Kubernetes + Cluster Autoscaler | Spot 노드 우선 확장 |
| AWS EC2 Fleet / GCP Preemptible Group | 자동 Spot 할당 |
| Ray / Kubeflow Pipelines | 각 Task별 자원 클래스 지정 |
| TorchElastic + Spot | 중단 감지 시 Elastic Recovery |
✅ 실전 적용 팁
- Spot 사용 시 GPU 사용률과 중단률을 함께 모니터링
- Checkpoint 간격을 촘촘하게 조정하여 손실 최소화
- 모델 서빙은 가능한 Reserved나 낮은 사양으로
- “혼합 노드 풀 구성”으로 비용-성능 균형 맞추기
✅ 마무리
클라우드 GPU는 무조건 비쌀 수밖에 없습니다.
하지만 어떤 Job을 어떤 방식으로 배치할지 전략을 세우면,
같은 성능을 훨씬 더 낮은 비용으로 얻을 수 있습니다.
Reserved와 Spot은 단순한 가격 옵션이 아니라,
AI 인프라 운영 전략의 핵심 도구입니다.
728x90