728x90
왜 HPC 네트워크 점검이 중요한가
HPC(High-Performance Computing)와 GPU 클러스터에서는 네트워크가 단순한 데이터 전송 통로가 아니라, 작업 속도를 결정짓는 핵심 인프라입니다.
멀티 노드 분산 학습, MPI 기반 시뮬레이션, 대규모 데이터 전송 작업에서는 네트워크 대역폭과 지연(latency)이 병목으로 작용하는 경우가 많습니다.
특히 HPC 운영자가 직면하는 주요 네트워크 이슈는 다음과 같습니다.
- InfiniBand 링크 불안정 또는 속도 저하
- NVLink/NVSwitch가 활성화되지 않거나 일부 GPU 간 연결만 가능
- 대규모 데이터 전송 시 패킷 손실 발생
- 특정 노드만 네트워크 지연이 비정상적으로 높음
이런 문제를 빠르게 진단하려면 CLI 기반 네트워크 분석 명령어에 능숙해야 합니다.
네트워크 상태 점검 필수 명령어
1. ifconfig / ip – 네트워크 인터페이스 상태 확인
# 인터페이스 상태 확인
ip addr show
# IPv4/IPv6 정보 포함 전체 출력
ifconfig -a
- IP 주소, MAC 주소, MTU 확인 가능
- InfiniBand 장치(ib0, ib1)와 Ethernet(eth0) 구분
2. ethtool – NIC 속도·상태 점검
ethtool eth0
- Speed: 현재 링크 속도 (예: 100Gbps)
- Duplex: 전이중/반이중 여부
- HPC에서는 InfiniBand NIC(mlx5_0 등)의 속도가 설정값과 일치하는지 확인 필수
3. ping – 기본 연결 및 지연 시간 확인
ping node02
- 평균 지연 시간(avg)이 비정상적으로 높으면 네트워크 부하 또는 링크 문제 의심
- InfiniBand 네트워크는 ibping 사용 가능
4. traceroute – 경로 추적
traceroute node02
- 패킷이 목적지까지 거치는 경로와 각 홉의 지연 시간 확인
- 멀티 스위치 구성 환경에서 병목 위치 추적 가능
5. netstat / ss – 연결 상태 분석
# 기존 netstat
netstat -tulnp
# 더 빠른 ss 명령
ss -tulnp
- 포트 점유, LISTEN 상태, 연결 개수 확인
- GPU Job 통신 포트 충돌 여부 파악 가능
6. iperf3 – 대역폭 측정
# 서버 모드
iperf3 -s
# 클라이언트 모드 (서버 IP 입력)
iperf3 -c 192.168.0.10
- TCP/UDP 전송 속도 측정
- 멀티 스트림 테스트(-P 옵션)로 실제 HPC 워크로드 유사 환경 측정 가능
7. ibstat / ibstatus – InfiniBand 상태 확인
ibstat
- 포트 상태, 링크 레이어, 활성 속도(HDR, NDR 등) 확인
- HPC에서는 IB 포트가 Active가 아니면 MPI Job 실행 불가
8. nvidia-smi topo -m – GPU 간 NVLink/NVSwitch 연결 상태
nvidia-smi topo -m
- GPU 간 연결 방식(NV1, NV2, PIX, SYS) 확인
- 멀티 GPU 병렬 처리 성능 저하 시 필수 점검
HPC 운영 관점 네트워크 진단 시나리오
| 상황 | 진단 명령어 | 조치 |
| 멀티 노드 학습 속도 저하 | iperf3, ibstat | InfiniBand 재설정, 케이블 교체 |
| 특정 노드에서만 Job 실패 | ping, traceroute | 네트워크 경로/라우팅 점검 |
| GPU 간 통신 속도 저하 | nvidia-smi topo -m | NVLink 활성화 여부 확인 |
| 포트 충돌로 Job 시작 불가 | ss -tulnp | 포트 변경 또는 프로세스 종료 |
장점과 단점
장점
- 병목 구간을 빠르게 파악 가능
- NVLink·InfiniBand 등 HPC 특화 인터커넥트 분석 가능
- 대역폭과 지연 시간을 정량화해 튜닝 근거 확보
단점
- 단일 시점 측정이라 지속적인 모니터링에는 한계
- HPC 특화 장비(NVSwitch, IB 스위치) 문제는 전용 툴 필요
실무 팁과 주의사항
- InfiniBand는 케이블·포트 상태가 민감하므로 정기 점검 필수
- iperf3는 테스트 중 네트워크 부하를 발생시키므로 운영 시간 외 실행 권장
- NVLink 상태는 GPU 드라이버 업데이트 후 반드시 재확인
정리하며
HPC와 GPU 클러스터 운영에서 네트워크는 단순 연결이 아니라 성능을 좌우하는 동맥입니다.
이번 글에서 다룬 명령어들은 단일 노드 점검부터 멀티 노드 병목 추적까지 모두 활용할 수 있습니다.
이후 12편에서는 Bash 스크립트를 이용한 GPU Health Check 및 운영 자동화를 다루어, 지금까지 배운 명령어들을 효율적으로 조합하는 방법을 소개하겠습니다.
728x90