HPC & GPU Engineering/Platform Essentials

📘 고성능 AI 컴퓨팅 인프라 용어 사전 (7) – Inference Scheduling & VM Orchestration

ygtoken 2025. 8. 3. 15:36
728x90

 

이전 글에서는 학습(Training) 중심의 스케줄링 전략을 다뤘다면,

이번에는 실제 서비스 환경에서 사용되는 추론(Inference) 요청을 어떻게 처리할지에 대한 이야기입니다.

 

특히 다수의 모델, 다양한 입력 크기, 사용자의 요청 폭주를 고려하면,

단순한 GPU 할당만으로는 부족하며, 스케줄링 + 오케스트레이션의 결합이 필요합니다.

 


Inference Scheduling이란?

 

Inference Scheduling은 실시간 또는 비동기 추론 요청을 GPU 자원에 효율적으로 매핑하고 배치하는 기술입니다.

 

즉, 사용자로부터 들어온 요청을

 

  • 어떤 모델 컨테이너에 보낼지?
  • 어떤 GPU에 할당할지?
  • 요청 수가 많아지면 어떻게 확장할지?

 

이 모든 판단과 실행을 자동으로 처리하는 게 핵심입니다.

 


왜 중요한가?

 

  • 추론 요청은 짧고 반복적이며 불규칙하게 몰림
  • GPU 자원을 효율적으로 할당하지 않으면 낭비 발생 또는 응답 지연
  • 수백 개 모델이 상시 서비스 중일 경우, 스케줄링 없이는 과부하/누락/충돌 위험

 

결국, GPU를 잘게 쪼개 쓰는 MIG나, 스케일링 전략과 함께 움직일 수 있는 스케줄러가 필수입니다.

 


VM Orchestration이란?

 

VM Orchestration은 가상 머신 기반의 AI 워크로드를 자동 배포, 확장, 복구, 종료까지 관리하는 구조입니다.

 

  • 단순히 VM을 띄우는 것이 아니라, GPU 리소스를 고려하여 적절한 VM을 자동 배치
  • 예측 기반 오토스케일링, 상태 감지 기반 재할당 등 고급 전략 가능
  • 클라우드뿐 아니라 온프레미스에서도 자주 사용됨

 


Inference Scheduling 방식

방식 설명 특징
Queue 기반 요청 스케줄링 추론 요청을 큐에 쌓고 순차 실행 간단하지만 병목 발생 가능
GPU-aware Scheduling 요청당 GPU 사용량 분석 후 배치 Overcommit 방지, MIG와 연계
Latency-Driven Routing 지연 예측을 기반으로 경량 모델/리전 선택 글로벌 서비스에 적합
Pre-Warming + AutoScaler 특정 모델 인스턴스를 사전 기동하여 Cold Start 방지 트래픽 폭주 대응에 유리

 


실무 적용 예시

  • NVIDIA Triton Inference Server + MIG
  • → 다양한 모델을 동시에 추론하고, GPU 자원을 정교하게 분배
  • KServe(Kubeflow Serving)
  • → Kubernetes 기반 추론 플랫폼, 요청량에 따라 모델 자동 배포/회수
  • AWS Inferentia / SageMaker Inference
  • → 요청 단위로 최적 인스턴스 자동 배치
  • 사내 GPU 클러스터 환경
  • → 사용자 요청 기반으로 VM 생성, GPU 할당, 추론 API 오픈까지 자동화

 


Inference와 Training의 차이

구분 Training Inference
목적 모델 학습 학습된 모델 실행
요청 패턴 긴 시간, 배치 기반 빠른 응답, 실시간 요청
자원 전략 Gang Scheduling, Data Parallelism MIG, Overcommit, AutoScaler
중요 기술 AllReduce, Elastic Training Request Routing, Pre-warming

 


마무리

 

모델을 학습하는 것도 중요하지만,

**“학습된 모델을 얼마나 빠르게, 효율적으로, 안정적으로 서비스하느냐”**가 실전에서의 승부입니다.

 

Inference Scheduling과 VM Orchestration은 AI 모델 운영의 안정성과 확장성을 책임지는 핵심 기술이며,

AI 인프라 운영자는 이를 통해 수많은 추론 요청을 지연 없이 안정적으로 제공할 수 있어야 합니다.

 

 

728x90