HPC & GPU Engineering/AI Infrastructure Engineer

[HPC/GPU 클러스터 운영 Zero to Hero 10편] HPC 운영자를 위한 리눅스 명령어 2 – 메모리·스토리지 상태 점검

ygtoken 2025. 8. 9. 17:25
728x90

 

왜 메모리·스토리지 점검이 중요한가

 

HPC 및 GPU 클러스터에서 메모리와 스토리지는 연산 속도와 안정성을 결정하는 핵심 요소입니다.

CPU/GPU 연산 성능이 아무리 높아도, 메모리 병목이나 스토리지 I/O 지연이 발생하면 전체 작업이 지연되거나 실패합니다.

 

특히 HPC 환경에서는 다음과 같은 상황이 빈번하게 발생합니다.

 

  • AI 학습 도중 OOM(Out-Of-Memory)로 Job 실패
  • 체크포인트 저장 속도가 느려 전체 학습 지연
  • 병렬 파일 시스템의 I/O 병목으로 다수 Job이 대기 상태
  • S3 스토리지와 연계 시 네트워크 기반 I/O 불안정

 

이런 상황을 신속하게 진단하려면 리눅스 명령어를 통한 자원 상태 점검이 필수입니다.

 


 

메모리 상태 점검 필수 명령어

1. free – 메모리 사용량 요약

free -h
  • Mem: 총 메모리, 사용 중, 여유 공간
  • Swap: 스왑 파티션 사용량
  • available이 낮으면 스왑 사용 가능성 높음

실무 팁

  • HPC 노드에서 스왑 사용이 증가하면 연산 속도 급격히 저하 → Job 스케줄링 정책으로 메모리 초과 작업 제한 필요

 


 

2. vmstat – 메모리·CPU·I/O 통합 모니터링

vmstat 2 5

(2초 간격, 5회 출력)

  • si/so 값이 높으면 스왑 입출력 빈번 → 메모리 부족 신호
  • wa(I/O wait)가 높으면 스토리지 병목 가능성

 


 

3. top / htop – 프로세스별 메모리 사용량 확인

top
htop

 

  • RES 값이 높은 프로세스를 우선 확인
  • GPU Job이 메모리를 과도하게 점유하면 Job 조정 또는 종료

 


 

4. /proc/meminfo – 상세 메모리 정보

cat /proc/meminfo

 

  • HugePages 사용 여부, 캐시 메모리, 버퍼 상태 확인 가능
  • HPC 환경에서 메모리 최적화 튜닝 시 유용

 


 

스토리지 상태 점검 필수 명령어

 

 

5. df – 디스크 사용량

df -h

 

  • HPC 공유 스토리지, 로컬 NVMe 사용량 확인
  • Use%가 90% 이상이면 성능 저하 가능성

 


 

6. du – 디렉토리별 용량 확인

du -sh /path/*

 

  • 대규모 데이터셋 위치 파악
  • 오래된 체크포인트 파일 정리 대상 찾기

 


 

7. iostat – 디스크 I/O 성능 분석

iostat -x 2 5

 

  • await: I/O 요청 대기 시간(ms)
  • util: 디스크 사용률(%) → 100%에 가까우면 병목 가능성

 


 

8. lsblk – 블록 디바이스 구조 확인

lsblk

 

  • 스토리지 장치와 마운트 지점 구조 확인
  • NVMe + 병렬 파일 시스템 구성 시 구조 점검 가능

 


 

9. fio – I/O 성능 벤치마크

fio --name=readwrite --rw=randrw --size=1G --bs=4k --numjobs=4 --runtime=60 --group_reporting

 

  • 스토리지 읽기·쓰기 속도와 IOPS 측정
  • HPC 스토리지 성능 튜닝 전후 비교에 사용

 


 

HPC 운영 관점 적용 사례

상황 진단 명령어  후속 조치
OOM으로 Job 실패 free -h, vmstat Job 메모리 요청 상향, 메모리 누수 프로세스 종료
체크포인트 저장 지연 iostat, df -h 병렬 FS stripe 조정, 불필요 데이터 정리
스토리지 공간 부족 df -h, du -sh 오래된 Job 결과·로그 삭제
NVMe 인식 불가 lsblk 장치 재마운트 또는 드라이버 재설치

 


 

장점과 단점

 

장점

  • 문제 원인 신속 파악 가능
  • GPU Job 실패 전 사전 조치 가능
  • 스토리지 최적화에 직접 활용 가능

단점

  • 실시간 감시 한계 → 모니터링 시스템 병행 필요
  • HPC 환경에서는 명령어 출력이 워크로드별로 해석 필요

 


 

실무 팁과 주의사항

  • 스토리지 용량이 80%를 넘어가면 성능 저하 가능성이 있으니 사전 정리
  • 병렬 파일 시스템(Lustre, BeeGFS)에서는 lfs df 같은 전용 명령어 활용
  • 메모리 점검은 Slurm Job 시작 전후 비교로 이상 징후 파악

 


 

정리하며

HPC/GPU 운영에서 메모리와 스토리지는 연산 성능의 혈관과 심장에 해당합니다.

이번 글에서 다룬 명령어들은 단순 점검 도구를 넘어, 병목 원인 분석성능 튜닝 방향 설정의 기초가 됩니다.

이후 네트워크 상태 점검(11편)까지 익히면, HPC 노드의 전반적인 건강 상태를 빠르게 진단할 수 있게 됩니다.

 

 

728x90