HPC & GPU Engineering/AI Infrastructure Engineer

[HPC/GPU 클러스터 운영 Linux Deep Dive 14편] Lustre와 GPFS 파일시스템 모니터링 – 데이터 흐름의 병목을 잡는 방법

ygtoken 2025. 8. 16. 09:55
728x90

 

왜 HPC 파일시스템 모니터링이 중요한가

 

HPC 클러스터에서 CPU와 GPU는 연산을 담당하지만, 파일시스템은 데이터의 혈관과도 같습니다. 데이터가 원활히 공급되지 않으면 연산 자원은 아무리 많아도 제 역할을 하지 못합니다. 특히 대규모 딥러닝 학습이나 시뮬레이션 환경에서는 I/O 병목으로 GPU가 idle 상태에 빠지는 일이 자주 발생합니다.

 

따라서 운영자는 단순히 GPU와 네트워크만 살피는 것이 아니라, 병렬 파일시스템(Lustre, GPFS/IBM Spectrum Scale)의 상태와 성능을 면밀히 모니터링해야 합니다. 이를 통해 데이터 병목을 사전에 발견하고, 연구자들이 “GPU가 놀고 있다”는 불만을 줄일 수 있습니다.

 


 

Lustre 파일시스템 모니터링

 

Lustre는 HPC 환경에서 가장 널리 쓰이는 병렬 파일시스템 중 하나입니다.

구성 요소는 크게 **Metadata Server(MDS), Metadata Target(MDT), Object Storage Server(OSS), Object Storage Target(OST)**로 나뉘며, 각각이 병목 포인트가 될 수 있습니다.

 

 

주요 모니터링 지표

 

  • Metadata 처리 지연: 디렉토리 탐색, 파일 생성/삭제 속도
  • OST I/O 대역폭: 읽기/쓰기 처리량
  • RPC 요청 지연: 클라이언트 요청과 응답 사이의 지연
  • Lock 충돌: 여러 프로세스가 같은 파일 메타데이터를 접근할 때 발생

 

 

모니터링 방법

# Lustre 클라이언트 상태 확인
lctl get_param obdfilter.*.stats

# 메타데이터 서버 상태 확인
lctl get_param mdt.*.stats

Prometheus + Grafana와 연계해 OST/MDT별 Throughput, Latency 대시보드를 구성하는 것도 일반적입니다.

 


 

GPFS(IBM Spectrum Scale) 모니터링

 

GPFS는 IBM이 개발한 고성능 병렬 파일시스템으로, 최근 AI 인프라 환경에서도 많이 사용됩니다. 특히 데이터 일관성과 확장성 측면에서 강점이 있습니다.

 

 

주요 모니터링 지표

 

  • Throughput: 초당 읽기/쓰기 처리량
  • inode 사용률: 메타데이터 테이블의 소진 여부
  • I/O 큐 길이: 요청이 몰릴 때 대기열 증가 여부
  • Network Wait: GPFS는 네트워크 기반이므로, 지연이 누적될 경우 성능 저하 발생

 

 

모니터링 방법

# GPFS 클러스터 상태 확인
mmgetstate -a

# 파일시스템 I/O 지표 확인
mmpmon -i

GPFS 역시 Grafana Exporter를 통해 장기 모니터링을 할 수 있습니다.

 


 

Lustre vs GPFS 모니터링 비교

구분 Lustre GPFS (IBM Spectrum Scale)
주요 사용처 전통적 HPC, 슈퍼컴퓨터 HPC + AI/ML 데이터 플랫폼
모니터링 지표 OST/MDT 성능, RPC, Lock 충돌 Throughput, inode, I/O 큐, Network
관리 도구 lctl, Prometheus Exporter mmpmon, mmgetstate, Exporter
강점 단일 대규모 HPC 워크로드에 최적화 다양한 데이터 워크로드 유연 지원
약점 메타데이터 Lock 병목 발생 가능 설정 복잡도, 상용 라이선스 필요

 


 

실제 운영 시나리오

 

  1. 딥러닝 학습 중 GPU Utilization 급락
    • 연구자 보고: GPU는 점유되었지만 실제 연산은 거의 안 됨
    • 확인: lctl get_param obdfilter.*.stats에서 OST 대역폭이 10MB/s 미만
    • 원인: Lustre OST 중 하나에 I/O 불균형 발생
    • 조치: OST 밸런싱 및 데이터 리스트라이핑
  2. GPFS inode 고갈 사례
    • 로그: “No space left on device” 오류 발생
    • 실제 디스크 용량은 충분했음
    • 원인: inode 테이블 고갈 (수십억 개의 작은 파일 생성)
    • 해결: inode 확장 및 작은 파일을 tarball로 묶는 방안 제안
  3. 메타데이터 병목 탐지
    • Lustre MDT에서 Lock 충돌 횟수 급증
    • 여러 Job이 동시에 동일한 디렉토리 내에서 수천 개의 파일 생성
    • 대응: Job 제출 가이드라인 변경 → 사용자별 디렉토리 분리

 


 

HPC 운영자의 체크리스트

 

  • Lustre: OST/MDT별 Throughput, RPC 지연, Lock 충돌 주기적 점검
  • GPFS: inode 사용률, I/O 큐, 네트워크 지연 지속 모니터링
  • 공통: Prometheus Exporter + Grafana 대시보드 구축
  • 알림: 특정 지표 임계치 초과 시 Slack/Email 알림 발송

 


 

정리하며

 

HPC 클러스터에서 GPU와 CPU만큼 중요한 것이 바로 파일시스템입니다.

 

  • Lustre는 HPC 전통 워크로드에 강점이 있으나 메타데이터 병목 관리가 필수입니다.
  • GPFS는 AI/ML 환경에서 확장성과 유연성이 뛰어나지만 관리 난이도가 더 높습니다.

 

운영자는 단순히 “스토리지가 가득 찼는가?“만 볼 것이 아니라, 지속적인 성능 추적과 병목 탐지를 통해 클러스터 전체의 생산성을 높여야 합니다.

 

 

728x90