728x90
๐ง ๋ก๊ทธ ๊ฐ์ (Overview)
2025-10-12T18:37:46.098195+09:00 gsvp-msi-gpu052 kernel:
NVRM: Xid (PCI:0000:db:00): 137, pid=202344, name=pt_nccl_watchdg, RLW_RXPIPE interrupt hit on link 0 on GPU0: PRIV Error
2025-10-12T18:37:46.098193+09:00 gsvp-msi-gpu052 kernel:
NVRM: Xid (PCI:0000:db:00): 145, pid=202344, name=pt_nccl_watchdg, RLW_RXPIPE Nonfatal XC0 i0 Link 00 (0x04080006 0x00000008 0x00000000 0x00000000 0x00000000 0x00000000)
- ๊ณตํต ์ ๋ณด
- Bus-ID 0000:db:00.0 → GPU index 5 (B200 ๋ชจ๋ธ)
- pid/name = 202344/pt_nccl_watchdg → PyTorch NCCL Watchdog ํ๋ก์ธ์ค
- ๋ Xid๊ฐ ๋์ผ ์๊ฐ ๋ ๊ธฐ๋ก๋จ → ํ๋์ NVLink Rx Pipeline ์ด๋ฒคํธ๋ก ๊ฐ์ฃผ
- Xid 137 : NVLink Rx Pipe privilege exception ๋ฐ์
- Xid 145 : ๋์ผ ๋งํฌ์์ ์ฌ์๋(retry) ๊ณผ์ ์ค ๋น์น๋ช ์ Non-fatal ์ ํธ
๐ 1. ํ์ (Symptoms)
- GPU 5๋ฒ (NVLink Link 0) ์์ 137 → 145 ์์ผ๋ก ์ฐ์ ๋ก๊ทธ ๊ธฐ๋ก
- NCCL ์ํฌ๋ก๋๋ ์ค๋จ ์์ด ์งํ๋์์ผ๋ฉฐ ์ฑ๋ฅ ์ ํ๋ Job Fail ์์
- ์์คํ ๋๋ VM ๋ ๋ฒจ ์ํฅ ์์
๐ 2. ๋ถ์ ๊ณผ์ (Investigation)
โ ๋ฌธ์ GPU ์๋ณ
nvidia-smi
| GPU 5 | Bus-Id 00000000:DB:00.0 | PID 202344 | /usr/bin/python |
→ Xid ๋ก๊ทธ์ PID ๋งค์นญ → GPU index 5 ํ์ธ
โก NVLink ์ํ ์ ๊ฒ
nvidia-smi nvlink -s -i 5
GPU 5: NVIDIA B200
Link 0-17: 50 GB/s (๋ชจ๋ Active)
→ ๋ชจ๋ ๋งํฌ ์ ์ ๋์ญํญ, ํ๋์จ์ด ๋งํฌ ๋ค์ด ์๋
โข ์ปค๋ ๋ก๊ทธ ์ฃผ๋ณ ์๊ด ๋ถ์
journalctl -k --since "2025-10-12 18:35:00" --until "2025-10-12 18:40:00" | grep -Ei "Xid|NVRM|nvlink"
- 137 → 145 ์์ผ๋ก 1ํ์ฑ ์ด๋ฒคํธ ๊ธฐ๋ก
- ๋ค๋ฅธ Xid (79, 109 ๋ฑ) ๋๋ฐ ์์
โฃ NCCL ๋ ๋ฒจ ํ์ธ (์ ํ)
export NCCL_DEBUG=INFO
export NCCL_DEBUG_SUBSYS=INIT,NET,GRAPH
- ๋์ผ ํ์์คํฌํ์ NCCL WARN/timeout ๋ก๊ทธ ์์ → ์ํํธ ๋ฆฌ์ปค๋ฒ๋ฆฌ ์๋ฃ
โ๏ธ 3. ์์ธ (Root Cause)
- NVLink Rx Pipeline Privilege Error (PRIV Error)
- NCCL ํต์ ์ค NVLink ํ๋์จ์ด๊ฐ register transaction ์์ธ๋ฅผ ๊ฐ์ง
- ๋๋ผ์ด๋ฒ ๋ด๋ถ ๋น์น๋ช
์ ๋ณต๊ตฌ ์ ์ฐจ (Non-fatal Retry)
- ํ๋์จ์ด ๋ ๋ฒจ์์ ์ฌ์๋ ํธ๋ฆฌ๊ฑฐ → Xid 145 ๊ธฐ๋ก
- GPU Reset ๋๋ ๋งํฌ Down ์์
- ์ํํธ์จ์ด ๋ ๋ฒจ ๋ณต๊ตฌ ์ฑ๊ณต, ์์ ์ง์
๐งฉ 4. ์กฐ์น ๋ฐ ๋์ (Actions)
โ ํ์ฌ ์ํ (Observed Outcome)
- ๋จ์ผ ์๊ฐ๋ 1ํ์ฑ ์ด๋ฒคํธ
- GPU 5๋ฒ ๋ฐ ์ํฌ๋ก๋ ์ ์ ์งํ
- nvidia-smi nvlink -s -i 5 ๊ฒฐ๊ณผ ๋ชจ๋ ๋งํฌ Active (50 GB/s)
- ์ถ๊ฐ Xid ์ด๋ฒคํธ (79, 109 ๋ฑ) ๋ฏธ๋ฐ์
๐งญ ๊ถ์ฅ ์ด์ ์กฐ์น (Operational Guidance)
1๏ธโฃ ์ฌ๋ฐ ๋ชจ๋ํฐ๋ง
sudo journalctl -k | grep "E[Xx]id (PCI:0000:db:00)"
- ๋์ผ GPU ๋๋ Link 0 ๋ฐ๋ณต ๋ฐ์ ์ ์ถ์ ์ง์
2๏ธโฃ NVLink ์ํ ํ์ธ (580 ์ด์ ํ๊ฒฝ)
nvidia-smi nvlink -i 5 --status
- ๊ฐ ๋งํฌ์ ๋์ญํญ(50 GB/s)๊ณผ Active ์ฌ๋ถ๋ฅผ ์ง์ ํ์ธ
3๏ธโฃ DCGM ๊ธฐ๋ฐ ํฌ์ค์ฒดํฌ
sudo dcgmi diag -r 3
sudo dcgmi health
- NVLink integrity, ECC, PCIe ์ํ ๋ฑ ์ข ํฉ ์ง๋จ ์ํ
4๏ธโฃ ์ง์ ๋ฐ์ ์ ์กฐ์น
- ๋๋ผ์ด๋ฒ ๋ฐ NVSwitch FW ๋ฒ์ ์ ๋ ฌ ํ์ธ
- ์ฝ๋ ๋ฆฌ๋ถํธ๋ก ํ๋์จ์ด ๋ ๋ฒจ ์ด๊ธฐํ
- ํน์ ํฌํธ์์ ๋ฐ๋ณต ๋ฐ์ ์ ํ๋์จ์ด ์ ๊ฒ ๋๋ ๊ต์ฒด
๐ 5. ๊ฒ์ฆ ๊ฒฐ๊ณผ (Verification)
sudo journalctl -k | grep "E[Xx]id (PCI:0000:db:00)"
# ์ถ๋ ฅ ์์ → ๋์ผ Bus-ID์์ Xid 137/145 ์ฌ๋ฐ ์์
nvidia-smi nvlink -i 5 --status
# ๋ชจ๋ ๋งํฌ Active / 50 GB/s ์ ์ง
โ NVLink ๋งํฌ Active
โ GPU reset / NCCL timeout ๋ฏธ๋ฐ์
โ ์ํฌ๋ก๋ ์ง์ ์ ์, ์ฑ๋ฅ ์ ํ ์์
728x90