📘 고성능 AI 컴퓨팅 인프라 용어 사전 (5)

HPC & GPU Engineering/Platform Essentials

📘 고성능 AI 컴퓨팅 인프라 용어 사전 (5) – MIG (Multi-Instance GPU)

ygtoken 2025. 8. 3. 15:34

728x90

앞선 글에서 다룬 분산 학습은 GPU 여러 개를 잘 조합하는 기술이었다면,

이번에는 하나의 GPU를 여러 개처럼 나누어 쓰는 기술, 바로 **MIG(Multi-Instance GPU)**에 대해 다룹니다.

고가의 GPU를 좀 더 효율적이고 안정적으로 활용하기 위한 대표적인 하드웨어 가상화 기능입니다.

✅ MIG란 무엇인가?

MIG는 NVIDIA A100/H100 GPU에 적용된 하드웨어 기반 가상화 기술로,

하나의 GPU를 논리적으로 최대 7개의 인스턴스로 분할하여 서로 독립적으로 사용할 수 있게 해줍니다.

각 인스턴스는 고유한 **GPU 메모리, 캐시, 컴퓨팅 자원(SM 등)**을 가짐
분리된 MIG 인스턴스는 서로 간섭 없이 독립적으로 동작
쿠버네티스 등 클라우드 환경에서 멀티 테넌시 지원에 매우 유리

✅ 왜 필요한가?

고성능 GPU(A100, H100 등)는 단일 작업에는 너무 과할 수 있습니다.

하지만 여러 사용자가 동시에 쓸 경우, 메모리 충돌이나 자원 간섭이 발생하기 쉽습니다.

MIG는 다음과 같은 이유로 실무에서 중요합니다:

리소스 낭비 방지: GPU 전체가 필요하지 않은 워크로드도 분할된 일부만 사용 가능
보안과 격리: 서로 다른 팀/사용자의 작업이 메모리/코어 레벨에서 격리됨
스케줄링 최적화: Kubernetes에서 GPU 리소스를 작은 단위로 할당 가능
비용 절감: GPU 1대를 다수의 논리 GPU로 쪼개어 효율 사용

✅ 동작 방식 요약

항목	설명
지원 모델	NVIDIA A100, H100 시리즈 이상
최대 인스턴스 수	A100: 최대 7개, H100: 더 유연한 구성 가능
자원 분할 단위	SM(Core), L2 캐시, DRAM, 엔진 단위로 정밀 분할
논리 인식 방식	각 MIG 인스턴스는 GPU처럼 독립적으로 리눅스에 /dev/nvidiaX로 인식됨
K8s에서의 사용	nvidia.com/mig-1g.5gb 등과 같이 리소스 요청 가능
호환 도구	nvidia-smi, DCGM, GPU Operator 등에서 MIG 상태 확인 및 제어 가능

✅ 실무 활용 사례

멀티 테넌트 AI 플랫폼
→ 하나의 GPU를 여러 사용자에게 안정적으로 할당
Inference 서비스 환경
→ 실시간 추론처럼 GPU 일부만 필요한 서비스에 적합
Kubernetes 기반 MLOps 환경
→ MIG-aware scheduler를 통해 GPU 자원을 논리적으로 배치
A/B 테스트 또는 경량 모델 다중 실험 환경
→ 여러 개의 작은 실험을 병렬로 빠르게 수행 가능

✅ MIG 구성 예시

구성 방식	MIG 인스턴스 수	사용 예
1g.5gb x 7	7개	추론 API, 경량 테스트 다수 실행
3g.20gb x 2 + 1g.5gb x 1	3개	중간급 학습 + 작은 서비스 혼합
7g.40gb x 1	1개	전체 GPU를 하나의 대형 학습 작업에 할당 (MIG 미사용 상태와 동일)

✅ 주의할 점

MIG는 같은 GPU 내에서만 독립적입니다. GPU 간 분산 학습 시에는 AllReduce 기반 분산 전략을 병행해야 함
MIG 인스턴스는 정적으로 설정되며, 변경 시 GPU 초기화가 필요함
일부 AI 프레임워크에서 MIG 인식이 제한적일 수 있으므로 NVIDIA 컨테이너 런타임, 드라이버 호환성 확인 필요

✅ 마무리

MIG는 고가의 GPU 자원을 더 잘게 쪼개어 여러 작업을 동시에 실행할 수 있는,

하드웨어 차원의 “가상화 + 격리” 솔루션입니다.

단일 GPU의 시대가 지나고, GPU를 잘게 나누거나, 여러 GPU를 잘 엮는 능력이 점점 더 중요해지는 지금,

MIG는 AI 인프라 최적화의 실전 무기가 됩니다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'HPC & GPU Engineering > Platform Essentials' 카테고리의 다른 글

📘 고성능 AI 컴퓨팅 인프라 용어 사전 (7) – Inference Scheduling & VM Orchestration (2)	2025.08.03
📘 고성능 AI 컴퓨팅 인프라 용어 사전 (6) – Gang Scheduling & Elastic Scheduling (0)	2025.08.03
📘 고성능 AI 컴퓨팅 인프라 용어 사전 (4) – Distributed Training & Parameter Synchronization (1)	2025.08.03
📘 고성능 AI 컴퓨팅 인프라 용어 사전 (3) – NVLink & GPU Fabric (0)	2025.08.03
📘 고성능 AI 컴퓨팅 인프라 용어 사전 (2) – HBM이란 무엇인가? (2)	2025.08.03

현재글📘 고성능 AI 컴퓨팅 인프라 용어 사전 (5) – MIG (Multi-Instance GPU)

YG Tech Blog

A blog about IT, covering topics from cloud computing and DevOps to Kubernetes and system architecture. Sharing insights, solutions, and best practices for modern IT professionals

Cilium, Python, DevOps, k8s, 쿠버네티스, Istio, argocd, Minio, YAML, MLOps, statefulset, kubernetes, langchain, 서비스_운영, gitops, CI/CD, 서비스메시, 파이썬, Security, RAG,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

YG Tech Blog