HPC & GPU Engineering/Platform Essentials

📘 고성능 AI 컴퓨팅 인프라 용어 사전 (3) – NVLink & GPU Fabric

ygtoken 2025. 8. 3. 15:30
728x90

 

 

앞선 글에서는 Accelerator와 HBM을 통해 고속 연산 장치의 성능과 메모리 병목 문제를 살펴보았습니다.

하지만 AI 모델이 점점 커지고, 여러 개의 GPU를 동시에 사용하는 환경이 일반화되면서 또 하나의 중요한 요소가 부각됩니다.

 

바로 GPU 간 통신 성능입니다. 이번 글에서는 이를 해결하기 위한 핵심 기술인 NVLink와 GPU Fabric에 대해 알아봅니다.

 


왜 GPU 간 통신이 중요한가?

 

AI 학습은 점점 더 분산 학습(Distributed Training) 방식으로 확장되고 있습니다.

하나의 모델이 수십 또는 수백 개의 GPU에 나뉘어 학습되기 때문에, 이들 간의 파라미터 동기화데이터 교환 속도가 전체 학습 속도를 좌우합니다.

 

그런데 PCIe 기반 GPU 연결만 사용할 경우, 다음과 같은 병목이 발생할 수 있습니다:

 

  • 낮은 대역폭: PCIe Gen4 x16도 약 32GB/s 수준
  • 고지연(latency): 대규모 노드 간 통신에 비효율적
  • 동기화 지연: 모델 파라미터를 GPU 간 주고받는 속도가 전체 학습 속도를 결정

 

이를 해결하기 위해 NVIDIA와 여러 벤더들이 개발한 기술이 NVLink, NVSwitch, GPU Fabric입니다.

 


NVLink란?

 

NVLink는 NVIDIA가 개발한 고속 GPU 간 인터커넥트 기술입니다.

PCIe보다 훨씬 넓은 대역폭과 낮은 지연을 제공하여, **GPU 간 직접 메모리 접근(GPU↔GPU)**이 가능해집니다.

 

  • 대역폭: GPU 한 쌍 간 최대 600 GB/s 이상 (NVLink 4.0 기준)
  • 통신 방식: Peer-to-Peer DMA 방식으로 GPU 간 메모리 접근 가능
  • Top-of-Rack NVSwitch와 함께 사용 시 전 GPU 완전 연결형 구조(All-to-All) 구성 가능
  • 실제 활용 사례: NVIDIA DGX 시스템, A100/H100 기반 클러스터

 


GPU Fabric이란?

 

GPU Fabric은 NVLink만을 의미하는 것이 아니라, 복수의 GPU 간 통신 구조 전체를 포괄하는 개념입니다.

GPU 간 통신 구조를 어떻게 구성하는지가 전체 시스템의 모델 처리 속도, 확장성, 병목 위치를 결정합니다.

 

대표적인 구성 방식:

구성 설명 특징
Ring Topology GPU들이 순환 형태로 연결 Collective Communication에 주로 사용 (예: AllReduce)
All-to-All 모든 GPU가 모든 GPU와 직접 연결 NVSwitch 기반 고성능 구성
Hierarchical GPU 묶음 간 계층적 연결 클러스터 규모 확장 시 활용
Hybrid Mesh/Fabric 스위치, 링크를 조합한 유연 구조 확장성과 병목 회피 목적

 


Collective Communication과의 관계

 

다중 GPU 학습에서는 다음과 같은 Collective Operation이 필수입니다:

 

  • AllReduce: 각 GPU의 파라미터를 평균 내서 전체에 공유
  • Broadcast / Gather: 모델 초기화 및 결과 수집에 사용
  • Barrier: 모든 GPU가 특정 시점에서 동기화

 

이 모든 작업은 GPU Fabric의 속도에 절대적으로 의존합니다.

속도가 느리면 GPU가 놀고 있게 되며, GPU 사용률이 떨어지고, 오히려 클러스터 비용이 낭비될 수 있습니다.

 


실무 적용 사례

 

  • NVIDIA DGX A100/H100 시스템은 NVSwitch를 통해 8~16개의 GPU를 완전한 Full Mesh로 연결
  • Meta, Google, OpenAI 등의 기업들은 자체 클러스터에서 GPU Fabric 설계 자체를 커스터마이징
  • Kubernetes 환경에서는 GPU Topology를 인식한 스케줄러와 NUMA-aware 배치 전략까지 사용

 


마무리

 

고성능 GPU를 여러 개 연결한다고 해서 무조건 성능이 향상되는 건 아닙니다.

GPU 간 연결 속도와 구조, 즉 GPU Fabric의 구성은 대규모 모델 학습의 병목을 줄이는 핵심 요소입니다.

특히 NVLink + NVSwitch 조합은 고성능 AI 컴퓨팅 인프라의 필수 기술로 자리잡고 있습니다.

 

728x90