HPC & GPU Engineering/HPC System
1. HPC란 무엇인가? – 구조, 구성요소, 실제 사례
ygtoken
2025. 7. 27. 09:20
728x90
1. 개요
HPC(High Performance Computing, 고성능 컴퓨팅)는 복잡하고 방대한 계산 작업을 빠르게 수행하기 위한 컴퓨팅 모델입니다.
기존의 단일 컴퓨터가 한 번에 하나의 작업을 처리하는 반면, HPC는 수십에서 수천 개의 서버(노드)를 네트워크로 연결해 동시에 여러 작업을 병렬로 수행함으로써, 처리 속도를 획기적으로 높입니다.
HPC는 다음과 같은 분야에서 핵심적인 역할을 합니다:
- 신약 개발, 분자 시뮬레이션
- AI 모델 학습 및 추론
- 반도체 회로 검증
- 천체 물리 시뮬레이션
- CFD(Computational Fluid Dynamics) 및 유체 해석
- 기상 예측 및 기후 모델링
이제는 단순히 슈퍼컴퓨터를 위한 기술이 아니라, 클라우드나 온프레미스 환경에서도 Kubernetes, Slurm, MPI 등을 조합해 구현할 수 있는 범용적 병렬처리 기술로 확장되고 있습니다.
2. HPC 시스템 구성 요소
HPC 시스템은 단일 머신이 아니라 여러 컴포넌트가 유기적으로 연결된 클러스터 형태로 구성됩니다.
대표적인 구성요소는 다음과 같습니다:
🖥️ 1) Head Node (로그인 노드 또는 관리 노드)
- 사용자는 이 노드를 통해 시스템에 접근
- Job 제출, 파일 이동, 실행 환경 설정 등을 담당
- 일반적으로 SSH로 접근
⚙️ 2) Compute Nodes (계산 노드)
- 실제 연산이 이루어지는 서버들
- CPU 또는 GPU 기반으로 구성
- 하나의 작업을 병렬로 나누어 처리
🔗 3) Interconnect (인터커넥트)
- 노드 간 통신을 위한 고속 네트워크
- InfiniBand, 100Gb Ethernet, NVLink 등
- 병렬 처리를 위해 레이턴시가 낮고 대역폭이 높은 연결이 필요
💾 4) Shared Storage (공유 스토리지)
- 노드들이 동시에 접근할 수 있는 고속 스토리지
- Lustre, BeeGFS, GPFS와 같은 병렬 파일 시스템 사용
- 데이터 읽기/쓰기 병목 해소를 위한 구조적 설계 필수
🧠 5) Job Scheduler (작업 스케줄러)
- Slurm, PBS, LSF 등
- Job 큐 관리, 리소스 할당, 사용자별 우선순위 조절
- 효율적인 노드 활용을 위해 반드시 필요한 소프트웨어
3. 일반 컴퓨터와 HPC의 차이
| 항목 | 일반 컴퓨터 | HPC 시스템 |
| 구조 | 단일 머신 | 노드 클러스터 |
| 처리방식 | 직렬 처리 | 병렬 처리 |
| 연산 속도 | 제한적 | 수천 배 향상 가능 |
| 사용 분야 | 일반 사무, 개발 | 과학, AI, 모델링 등 |
| 네트워크 | 일반 LAN | 고속 저지연 네트워크 |
4. 개념 아키텍처 구성도
+------------------+ +--------------------+
| Head Node | <---> | Shared Storage |
+------------------+ +--------------------+
|
v
+---------------+ +---------------+ +---------------+
| Compute Node1 | | Compute Node2 | | Compute Node3 |
+---------------+ +---------------+ +---------------+
↕ ↕ ↕ (Infiniband / High-speed Network)

- 사용자는 Head Node를 통해 Job을 제출
- Scheduler는 Compute Node들에 작업을 병렬 배포
- 결과는 Shared Storage에 집계됨
5. Summary
| 핵심 키워드 | 설명 |
| HPC (High Performance Computing) | 고성능 병렬 연산 시스템, 복잡한 계산을 빠르게 처리 |
| 클러스터 구조 | Head + Compute + Interconnect + Storage + Scheduler |
| 병렬 처리 | 동일한 작업을 다수의 노드에서 동시에 처리 |
| 실무 활용 | AI 학습, 반도체 설계, CFD, 기상예측 등 |
| 도구 예시 | Slurm, MPI, Lustre, Infiniband 등 |
HPC는 이제 연구기관 전용이 아닌, DevOps 엔지니어가 다루는 인프라 기술의 한 축이 되고 있습니다.
다음 글에서는 HPC 환경에서 핵심적인 작업 스케줄러 Slurm의 개념과 설치 과정을 직접 실습해보겠습니다.
6. 참고자료
728x90