728x90
Part 1 – HPC/GPU 개요 & 기본기 (8편)
- [HPC/GPU 클러스터 운영 Zero to Hero] HPC와 GPU 클러스터 개요 – 고성능 컴퓨팅의 기본 구조와 구성 요소
- [HPC/GPU 클러스터 운영 Zero to Hero] Kubernetes와 HPC의 융합 – 컨테이너 기반 HPC 환경의 장점과 과제
- [HPC/GPU 클러스터 운영 Zero to Hero] GPU 아키텍처 입문 – CUDA Core, Tensor Core, HBM 메모리 구조 이해
- [HPC/GPU 클러스터 운영 Zero to Hero] HPC 운영 필수 개념 – 스케줄러·스토리지·고속 네트워크 기초
- [HPC/GPU 클러스터 운영 Zero to Hero] 왜 HPC 운영에도 DevOps가 필요한가 – IaC·CI/CD·자동화의 가치
- [HPC/GPU 클러스터 운영 Zero to Hero] HPC/K8s 운영자를 위한 필수 용어집 – Slurm, NCCL, InfiniBand, MIG 등
- [HPC/GPU 클러스터 운영 Zero to Hero] 전통 HPC와 K8s 기반 HPC 비교 – 아키텍처와 운영 방식의 차이
- [HPC/GPU 클러스터 운영 Zero to Hero] HPC/GPU 운영의 주요 도전 과제와 해결 전략
Part 2 – 리눅스 & 네트워크 심화 (6편)
- [HPC/GPU 클러스터 운영 Zero to Hero] HPC 운영자를 위한 리눅스 명령어 1 – 시스템 상태와 프로세스 관리
- [HPC/GPU 클러스터 운영 Zero to Hero] HPC 운영자를 위한 리눅스 명령어 2 – 메모리·스토리지 상태 점검
- [HPC/GPU 클러스터 운영 Zero to Hero] HPC 운영자를 위한 리눅스 명령어 3 – 네트워크 상태와 성능 분석
- [HPC/GPU 클러스터 운영 Zero to Hero] Bash 스크립트로 HPC 운영 자동화 – GPU Health Check 예제 포함
- [HPC/GPU 클러스터 운영 Zero to Hero] 리눅스 성능 분석 도구 – vmstat, iostat, perf 활용법
- [HPC/GPU 클러스터 운영 Zero to Hero] HPC 환경 보안과 사용자 권한 관리 – 계정·그룹·파일 권한 설정
Part 3 – Slurm 스케줄링 기초~심화 (10편)
- [HPC/GPU 클러스터 운영 Zero to Hero] Slurm 개요와 아키텍처 – Controller·Compute Node·slurmd 이해
- [HPC/GPU 클러스터 운영 Zero to Hero] Slurm 기본 명령어 – srun, sbatch, squeue, scancel 사용법
- [HPC/GPU 클러스터 운영 Zero to Hero] Slurm 파티션과 노드 관리 – slurm.conf 설정과 노드 상태 제어
- [HPC/GPU 클러스터 운영 Zero to Hero] Slurm Job Script 작성법 – 자원 요청과 환경 변수 설정
- [HPC/GPU 클러스터 운영 Zero to Hero] Slurm에서 GPU Job 제출하기 – –gres 옵션과 GPU 리소스 예약
- [HPC/GPU 클러스터 운영 Zero to Hero] QoS와 Fairshare – Slurm 자원 우선순위 정책 설계
- [HPC/GPU 클러스터 운영 Zero to Hero] Preemption과 정책 설정 – 자원 회수와 긴급 Job 처리 전략
- [HPC/GPU 클러스터 운영 Zero to Hero] K8s Batch Scheduler(Volcano/Kueue)와 Slurm 연계 운영 방법
- [HPC/GPU 클러스터 운영 Zero to Hero] Slurm 트러블슈팅 – Pending·Fail 상태 원인 분석과 해결
- [HPC/GPU 클러스터 운영 Zero to Hero] Slurm 로그 분석과 성능 튜닝 – 효율적인 Job 실행 환경 만들기
Part 4 – Ansible·자동화 (5편)
- [HPC/GPU 클러스터 운영 Zero to Hero] Ansible 기초 – Inventory, Playbook, Roles 구조와 실행 흐름
- [HPC/GPU 클러스터 운영 Zero to Hero] Ansible로 GPU Driver·CUDA 자동 배포하기
- [HPC/GPU 클러스터 운영 Zero to Hero] Ansible로 Slurm Cluster 자동 구성하기
- [HPC/GPU 클러스터 운영 Zero to Hero] HPC/K8s 통합 노드 초기화 Playbook 작성
- [HPC/GPU 클러스터 운영 Zero to Hero] Ansible로 장애 노드 복구와 롤백 자동화 구현
Part 5 – GPU 인프라 최적화 (6편)
- [HPC/GPU 클러스터 운영 Zero to Hero] NVIDIA H100/H200 아키텍처 심층 분석 – 최신 GPU의 구조와 특징
- [HPC/GPU 클러스터 운영 Zero to Hero] NVLink, NVSwitch, InfiniBand – 고속 GPU 네트워크 이해하기
- [HPC/GPU 클러스터 운영 Zero to Hero] CUDA, NCCL, OpenMPI 환경 구성과 연동
- [HPC/GPU 클러스터 운영 Zero to Hero] MIG Partitioning과 멀티 GPU 운영 전략
- [HPC/GPU 클러스터 운영 Zero to Hero] 멀티 노드 분산 학습 – Horovod와 DeepSpeed 활용법
- [HPC/GPU 클러스터 운영 Zero to Hero] GPU 성능 모니터링과 튜닝 – nvidia-smi와 DCGM Exporter 사용법
Part 6 – 스토리지·데이터 경로 (4편)
- [HPC/GPU 클러스터 운영 Zero to Hero] 병렬 파일 시스템 Lustre, BeeGFS 구조와 운영 방법
- [HPC/GPU 클러스터 운영 Zero to Hero] S3 오브젝트 스토리지 – MinIO와 Ceph RADOS Gateway 연계
- [HPC/GPU 클러스터 운영 Zero to Hero] K8s CSI Driver로 HPC 스토리지 연동하기
- [HPC/GPU 클러스터 운영 Zero to Hero] 데이터 파이프라인 설계 – 프리페치와 체크포인트 전략
Part 7 – 모니터링·트러블슈팅 (3편)
- [HPC/GPU 클러스터 운영 Zero to Hero] Observability 구성 – Prometheus, Grafana, Loki 통합 환경 구축
- [HPC/GPU 클러스터 운영 Zero to Hero] Slurm Exporter·DCGM Exporter 통합 모니터링 대시보드 만들기
- [HPC/GPU 클러스터 운영 Zero to Hero] GPU·네트워크·스토리지 병목 진단과 장애 리포트 작성 방법
728x90