📘 고성능 AI 컴퓨팅 인프라 용어 사전 (7) – Inference Scheduling & VM Orchestration

HPC & GPU Engineering/Platform Essentials

📘 고성능 AI 컴퓨팅 인프라 용어 사전 (7) – Inference Scheduling & VM Orchestration

ygtoken 2025. 8. 3. 15:36

728x90

이전 글에서는 학습(Training) 중심의 스케줄링 전략을 다뤘다면,

이번에는 실제 서비스 환경에서 사용되는 추론(Inference) 요청을 어떻게 처리할지에 대한 이야기입니다.

특히 다수의 모델, 다양한 입력 크기, 사용자의 요청 폭주를 고려하면,

단순한 GPU 할당만으로는 부족하며, 스케줄링 + 오케스트레이션의 결합이 필요합니다.

✅ Inference Scheduling이란?

Inference Scheduling은 실시간 또는 비동기 추론 요청을 GPU 자원에 효율적으로 매핑하고 배치하는 기술입니다.

즉, 사용자로부터 들어온 요청을

어떤 모델 컨테이너에 보낼지?
어떤 GPU에 할당할지?
요청 수가 많아지면 어떻게 확장할지?

이 모든 판단과 실행을 자동으로 처리하는 게 핵심입니다.

✅ 왜 중요한가?

추론 요청은 짧고 반복적이며 불규칙하게 몰림
GPU 자원을 효율적으로 할당하지 않으면 낭비 발생 또는 응답 지연
수백 개 모델이 상시 서비스 중일 경우, 스케줄링 없이는 과부하/누락/충돌 위험

결국, GPU를 잘게 쪼개 쓰는 MIG나, 스케일링 전략과 함께 움직일 수 있는 스케줄러가 필수입니다.

✅ VM Orchestration이란?

VM Orchestration은 가상 머신 기반의 AI 워크로드를 자동 배포, 확장, 복구, 종료까지 관리하는 구조입니다.

단순히 VM을 띄우는 것이 아니라, GPU 리소스를 고려하여 적절한 VM을 자동 배치
예측 기반 오토스케일링, 상태 감지 기반 재할당 등 고급 전략 가능
클라우드뿐 아니라 온프레미스에서도 자주 사용됨

✅ Inference Scheduling 방식

방식	설명	특징
Queue 기반 요청 스케줄링	추론 요청을 큐에 쌓고 순차 실행	간단하지만 병목 발생 가능
GPU-aware Scheduling	요청당 GPU 사용량 분석 후 배치	Overcommit 방지, MIG와 연계
Latency-Driven Routing	지연 예측을 기반으로 경량 모델/리전 선택	글로벌 서비스에 적합
Pre-Warming + AutoScaler	특정 모델 인스턴스를 사전 기동하여 Cold Start 방지	트래픽 폭주 대응에 유리

✅ 실무 적용 예시

NVIDIA Triton Inference Server + MIG
→ 다양한 모델을 동시에 추론하고, GPU 자원을 정교하게 분배
KServe(Kubeflow Serving)
→ Kubernetes 기반 추론 플랫폼, 요청량에 따라 모델 자동 배포/회수
AWS Inferentia / SageMaker Inference
→ 요청 단위로 최적 인스턴스 자동 배치
사내 GPU 클러스터 환경
→ 사용자 요청 기반으로 VM 생성, GPU 할당, 추론 API 오픈까지 자동화

✅ Inference와 Training의 차이

구분	Training	Inference
목적	모델 학습	학습된 모델 실행
요청 패턴	긴 시간, 배치 기반	빠른 응답, 실시간 요청
자원 전략	Gang Scheduling, Data Parallelism	MIG, Overcommit, AutoScaler
중요 기술	AllReduce, Elastic Training	Request Routing, Pre-warming

✅ 마무리

모델을 학습하는 것도 중요하지만,

**“학습된 모델을 얼마나 빠르게, 효율적으로, 안정적으로 서비스하느냐”**가 실전에서의 승부입니다.

Inference Scheduling과 VM Orchestration은 AI 모델 운영의 안정성과 확장성을 책임지는 핵심 기술이며,

AI 인프라 운영자는 이를 통해 수많은 추론 요청을 지연 없이 안정적으로 제공할 수 있어야 합니다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'HPC & GPU Engineering > Platform Essentials' 카테고리의 다른 글

📘 고성능 AI 컴퓨팅 인프라 용어 사전 (9) – GPU Telemetry & Observability (2)	2025.08.03
📘 고성능 AI 컴퓨팅 인프라 용어 사전 (8) – Utilization Optimization & QoS (1)	2025.08.03
📘 고성능 AI 컴퓨팅 인프라 용어 사전 (6) – Gang Scheduling & Elastic Scheduling (0)	2025.08.03
📘 고성능 AI 컴퓨팅 인프라 용어 사전 (5) – MIG (Multi-Instance GPU) (1)	2025.08.03
📘 고성능 AI 컴퓨팅 인프라 용어 사전 (4) – Distributed Training & Parameter Synchronization (1)	2025.08.03

현재글📘 고성능 AI 컴퓨팅 인프라 용어 사전 (7) – Inference Scheduling & VM Orchestration

YG Tech Blog

A blog about IT, covering topics from cloud computing and DevOps to Kubernetes and system architecture. Sharing insights, solutions, and best practices for modern IT professionals

statefulset, k8s, CI/CD, 쿠버네티스, MLOps, RAG, YAML, gitops, Security, argocd, 파이썬, 서비스메시, Cilium, Python, kubernetes, Istio, Minio, 서비스_운영, langchain, DevOps,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

YG Tech Blog