이전 글에서는 학습(Training) 중심의 스케줄링 전략을 다뤘다면,
이번에는 실제 서비스 환경에서 사용되는 추론(Inference) 요청을 어떻게 처리할지에 대한 이야기입니다.
특히 다수의 모델, 다양한 입력 크기, 사용자의 요청 폭주를 고려하면,
단순한 GPU 할당만으로는 부족하며, 스케줄링 + 오케스트레이션의 결합이 필요합니다.
✅ Inference Scheduling이란?
Inference Scheduling은 실시간 또는 비동기 추론 요청을 GPU 자원에 효율적으로 매핑하고 배치하는 기술입니다.
즉, 사용자로부터 들어온 요청을
- 어떤 모델 컨테이너에 보낼지?
- 어떤 GPU에 할당할지?
- 요청 수가 많아지면 어떻게 확장할지?
이 모든 판단과 실행을 자동으로 처리하는 게 핵심입니다.
✅ 왜 중요한가?
- 추론 요청은 짧고 반복적이며 불규칙하게 몰림
- GPU 자원을 효율적으로 할당하지 않으면 낭비 발생 또는 응답 지연
- 수백 개 모델이 상시 서비스 중일 경우, 스케줄링 없이는 과부하/누락/충돌 위험
결국, GPU를 잘게 쪼개 쓰는 MIG나, 스케일링 전략과 함께 움직일 수 있는 스케줄러가 필수입니다.
✅ VM Orchestration이란?
VM Orchestration은 가상 머신 기반의 AI 워크로드를 자동 배포, 확장, 복구, 종료까지 관리하는 구조입니다.
- 단순히 VM을 띄우는 것이 아니라, GPU 리소스를 고려하여 적절한 VM을 자동 배치
- 예측 기반 오토스케일링, 상태 감지 기반 재할당 등 고급 전략 가능
- 클라우드뿐 아니라 온프레미스에서도 자주 사용됨
✅ Inference Scheduling 방식
| 방식 | 설명 | 특징 |
| Queue 기반 요청 스케줄링 | 추론 요청을 큐에 쌓고 순차 실행 | 간단하지만 병목 발생 가능 |
| GPU-aware Scheduling | 요청당 GPU 사용량 분석 후 배치 | Overcommit 방지, MIG와 연계 |
| Latency-Driven Routing | 지연 예측을 기반으로 경량 모델/리전 선택 | 글로벌 서비스에 적합 |
| Pre-Warming + AutoScaler | 특정 모델 인스턴스를 사전 기동하여 Cold Start 방지 | 트래픽 폭주 대응에 유리 |
✅ 실무 적용 예시
- NVIDIA Triton Inference Server + MIG
- → 다양한 모델을 동시에 추론하고, GPU 자원을 정교하게 분배
- KServe(Kubeflow Serving)
- → Kubernetes 기반 추론 플랫폼, 요청량에 따라 모델 자동 배포/회수
- AWS Inferentia / SageMaker Inference
- → 요청 단위로 최적 인스턴스 자동 배치
- 사내 GPU 클러스터 환경
- → 사용자 요청 기반으로 VM 생성, GPU 할당, 추론 API 오픈까지 자동화
✅ Inference와 Training의 차이
| 구분 | Training | Inference |
| 목적 | 모델 학습 | 학습된 모델 실행 |
| 요청 패턴 | 긴 시간, 배치 기반 | 빠른 응답, 실시간 요청 |
| 자원 전략 | Gang Scheduling, Data Parallelism | MIG, Overcommit, AutoScaler |
| 중요 기술 | AllReduce, Elastic Training | Request Routing, Pre-warming |
✅ 마무리
모델을 학습하는 것도 중요하지만,
**“학습된 모델을 얼마나 빠르게, 효율적으로, 안정적으로 서비스하느냐”**가 실전에서의 승부입니다.
Inference Scheduling과 VM Orchestration은 AI 모델 운영의 안정성과 확장성을 책임지는 핵심 기술이며,
AI 인프라 운영자는 이를 통해 수많은 추론 요청을 지연 없이 안정적으로 제공할 수 있어야 합니다.
'HPC & GPU Engineering > Platform Essentials' 카테고리의 다른 글
| 📘 고성능 AI 컴퓨팅 인프라 용어 사전 (9) – GPU Telemetry & Observability (2) | 2025.08.03 |
|---|---|
| 📘 고성능 AI 컴퓨팅 인프라 용어 사전 (8) – Utilization Optimization & QoS (1) | 2025.08.03 |
| 📘 고성능 AI 컴퓨팅 인프라 용어 사전 (6) – Gang Scheduling & Elastic Scheduling (0) | 2025.08.03 |
| 📘 고성능 AI 컴퓨팅 인프라 용어 사전 (5) – MIG (Multi-Instance GPU) (1) | 2025.08.03 |
| 📘 고성능 AI 컴퓨팅 인프라 용어 사전 (4) – Distributed Training & Parameter Synchronization (1) | 2025.08.03 |