[HPC/GPU 클러스터 운영 Zero to Hero 10편] HPC 운영자를 위한 리눅스 명령어 2

HPC & GPU Engineering/AI Infrastructure Engineer

[HPC/GPU 클러스터 운영 Zero to Hero 10편] HPC 운영자를 위한 리눅스 명령어 2 – 메모리·스토리지 상태 점검

ygtoken 2025. 8. 9. 17:25

728x90

왜 메모리·스토리지 점검이 중요한가

HPC 및 GPU 클러스터에서 메모리와 스토리지는 연산 속도와 안정성을 결정하는 핵심 요소입니다.

CPU/GPU 연산 성능이 아무리 높아도, 메모리 병목이나 스토리지 I/O 지연이 발생하면 전체 작업이 지연되거나 실패합니다.

특히 HPC 환경에서는 다음과 같은 상황이 빈번하게 발생합니다.

AI 학습 도중 OOM(Out-Of-Memory)로 Job 실패
체크포인트 저장 속도가 느려 전체 학습 지연
병렬 파일 시스템의 I/O 병목으로 다수 Job이 대기 상태
S3 스토리지와 연계 시 네트워크 기반 I/O 불안정

이런 상황을 신속하게 진단하려면 리눅스 명령어를 통한 자원 상태 점검이 필수입니다.

메모리 상태 점검 필수 명령어

1. free – 메모리 사용량 요약

free -h

Mem: 총 메모리, 사용 중, 여유 공간
Swap: 스왑 파티션 사용량
available이 낮으면 스왑 사용 가능성 높음

실무 팁

HPC 노드에서 스왑 사용이 증가하면 연산 속도 급격히 저하 → Job 스케줄링 정책으로 메모리 초과 작업 제한 필요

2. vmstat – 메모리·CPU·I/O 통합 모니터링

vmstat 2 5

(2초 간격, 5회 출력)

si/so 값이 높으면 스왑 입출력 빈번 → 메모리 부족 신호
wa(I/O wait)가 높으면 스토리지 병목 가능성

3. top / htop – 프로세스별 메모리 사용량 확인

top
htop

RES 값이 높은 프로세스를 우선 확인
GPU Job이 메모리를 과도하게 점유하면 Job 조정 또는 종료

4. /proc/meminfo – 상세 메모리 정보

cat /proc/meminfo

HugePages 사용 여부, 캐시 메모리, 버퍼 상태 확인 가능
HPC 환경에서 메모리 최적화 튜닝 시 유용

스토리지 상태 점검 필수 명령어

5. df – 디스크 사용량

df -h

HPC 공유 스토리지, 로컬 NVMe 사용량 확인
Use%가 90% 이상이면 성능 저하 가능성

6. du – 디렉토리별 용량 확인

du -sh /path/*

대규모 데이터셋 위치 파악
오래된 체크포인트 파일 정리 대상 찾기

7. iostat – 디스크 I/O 성능 분석

iostat -x 2 5

await: I/O 요청 대기 시간(ms)
util: 디스크 사용률(%) → 100%에 가까우면 병목 가능성

8. lsblk – 블록 디바이스 구조 확인

lsblk

스토리지 장치와 마운트 지점 구조 확인
NVMe + 병렬 파일 시스템 구성 시 구조 점검 가능

9. fio – I/O 성능 벤치마크

fio --name=readwrite --rw=randrw --size=1G --bs=4k --numjobs=4 --runtime=60 --group_reporting

스토리지 읽기·쓰기 속도와 IOPS 측정
HPC 스토리지 성능 튜닝 전후 비교에 사용

HPC 운영 관점 적용 사례

상황	진단 명령어	후속 조치
OOM으로 Job 실패	free -h, vmstat	Job 메모리 요청 상향, 메모리 누수 프로세스 종료
체크포인트 저장 지연	iostat, df -h	병렬 FS stripe 조정, 불필요 데이터 정리
스토리지 공간 부족	df -h, du -sh	오래된 Job 결과·로그 삭제
NVMe 인식 불가	lsblk	장치 재마운트 또는 드라이버 재설치

장점과 단점

장점

문제 원인 신속 파악 가능
GPU Job 실패 전 사전 조치 가능
스토리지 최적화에 직접 활용 가능

단점

실시간 감시 한계 → 모니터링 시스템 병행 필요
HPC 환경에서는 명령어 출력이 워크로드별로 해석 필요

실무 팁과 주의사항

스토리지 용량이 80%를 넘어가면 성능 저하 가능성이 있으니 사전 정리
병렬 파일 시스템(Lustre, BeeGFS)에서는 lfs df 같은 전용 명령어 활용
메모리 점검은 Slurm Job 시작 전후 비교로 이상 징후 파악

정리하며

HPC/GPU 운영에서 메모리와 스토리지는 연산 성능의 혈관과 심장에 해당합니다.

이번 글에서 다룬 명령어들은 단순 점검 도구를 넘어, 병목 원인 분석과 성능 튜닝 방향 설정의 기초가 됩니다.

이후 네트워크 상태 점검(11편)까지 익히면, HPC 노드의 전반적인 건강 상태를 빠르게 진단할 수 있게 됩니다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'HPC & GPU Engineering > AI Infrastructure Engineer' 카테고리의 다른 글

[HPC/GPU 클러스터 운영 Zero to Hero 12편] Bash 스크립트로 HPC 운영 자동화 – GPU Health Check 예제 포함 (7)	2025.08.09
[HPC/GPU 클러스터 운영 Zero to Hero 11편] HPC 운영자를 위한 리눅스 명령어 3 – 네트워크 상태와 성능 분석 (9)	2025.08.09
[HPC/GPU 클러스터 운영 Zero to Hero 9편] HPC 운영자를 위한 리눅스 명령어 1 – 시스템 상태와 프로세스 관리 (1)	2025.08.09
[HPC/GPU 클러스터 운영 Zero to Hero 8편] HPC/GPU 운영의 주요 도전 과제와 해결 전략 – 성능, 안정성, 확장성을 지키는 운영 비법 (6)	2025.08.09
[HPC/GPU 클러스터 운영 Zero to Hero 7편] 전통 HPC와 K8s 기반 HPC 비교 – 아키텍처와 운영 방식의 차이 (1)	2025.08.09

현재글[HPC/GPU 클러스터 운영 Zero to Hero 10편] HPC 운영자를 위한 리눅스 명령어 2 – 메모리·스토리지 상태 점검

YG Tech Blog

A blog about IT, covering topics from cloud computing and DevOps to Kubernetes and system architecture. Sharing insights, solutions, and best practices for modern IT professionals

Security, argocd, 쿠버네티스, DevOps, CI/CD, 파이썬, langchain, k8s, Minio, kubernetes, 서비스메시, MLOps, gitops, 서비스_운영, RAG, YAML, statefulset, Cilium, Istio, Python,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

YG Tech Blog