고성능 AI 컴퓨팅 인프라 기술 키워드 정리 (v1.0)

HPC & GPU Engineering/Platform Essentials

고성능 AI 컴퓨팅 인프라 기술 키워드 정리 (v1.0)

ygtoken 2025. 8. 3. 14:54

728x90

🔷 1. HPC 인프라 및 하드웨어 구조

분류	키워드	설명
가속기 하드웨어	Accelerator	GPU, NPU, Gaudi, MI250 등 고속 연산을 위한 특수 연산 장치
메모리	HBM (High Bandwidth Memory)	GPU 내부 고대역폭 메모리로 대규모 모델 처리에 필수
카드/서버 구조	PCIe 카드, PCIe Passthrough	GPU를 PCIe 슬롯에 장착하거나 VM에 직접 할당하는 기술
실행 환경	Baremetal, Service VM	가상화 없이 물리 서버를 직접 운영하거나 제어 전용 VM 구성
메모리 구조	NUMA	CPU-GPU 간 메모리 접근 시간의 차이가 존재하는 구조로, 최적 배치 및 성능 분석에 중요
전력/발열	Power Budget, Power Density, Cooling Power Overhead, TDP	데이터센터 전력 설계 시 고려되는 소비량과 발열 값, 냉각 비용 등을 포함한 설계 요소
통합 스택	Vertical Integration, Cross-layer Optimization	하드웨어부터 소프트웨어, 프레임워크, 알고리즘까지 수직적으로 통합 최적화된 구조
GPU 가상화	MIG (Multi-Instance GPU)	NVIDIA A100/H100에서 지원되는 GPU 논리 분할 기능으로 다중 워크로드를 지원
병렬 파일 시스템	Lustre, BeeGFS, Spectrum Scale	HPC/AI 환경에서 사용되는 고성능 병렬 파일 시스템으로, 대규모 데이터 처리에 적합

🔷 2. 스케줄링 및 분산 학습 전략

분류	키워드	설명
통신 구조	Collective Communication, Ring Topology	GPU 간 통신을 위한 구조로 평균, sum, sync 등을 위한 메시지 교환 방식
분산 학습	Distributed Training, Parameter Synchronization	여러 GPU에 모델을 분산시켜 병렬로 학습하고, 주기적으로 파라미터를 동기화하는 구조
정밀도 최적화	Mixed Precision Training	FP16, BF16 등을 혼용하여 학습 속도 및 메모리 사용량을 최적화하는 기법
스케줄링 전략	Job Completion Time, Gang Scheduling, Elastic Scheduling, Preemption	전체 작업의 완료 시간 측정, 동시 실행 보장, 선점 실행 등 다양한 GPU 스케줄링 전략
불균형 탐지	Imbalance Detection	GPU 간 작업량/통신량/메모리 사용량의 불균형을 감지하여 성능 저하를 방지하는 전략

🔷 3. 네트워킹 및 GPU 패브릭

분류	키워드	설명
GPU 인터커넥트	NVLink (MVLink), GPU Fabric	고속 GPU 간 통신 구조로, 병렬 처리 및 대용량 모델 연산에 최적화됨
고속 통신 기술	RDMA, GPUDirect RDMA	CPU 개입 없이 NIC를 통해 GPU 메모리 간 직접 데이터 전송 가능
NIC/인터페이스	High-speed NIC, SR-IOV, VF	GPU용 고속 NIC(200/400Gbps), 가상 NIC 생성 기술 포함
트래픽 처리	Offloading, Link Aggregation	네트워크 부하를 NIC에서 처리하거나 여러 NIC를 묶어 대역폭 증가
스위치 지능화	In-Network Computing	SmartNIC/스위치에서 연산을 일부 처리하여 지연을 줄이는 기술
DC 네트워크 구조	Leaf-Spine Topology, OVS/OVN	병목 방지를 위한 데이터센터 네트워크 설계 및 오픈소스 가상 네트워크 구조
최신 하드웨어	SmartNIC, UCIe, Liquid Cooling	차세대 고성능 인프라를 위한 인터페이스 및 냉각 기술, 모듈형 칩 구조 기술

🔷 4. 가상화 및 클러스터 오케스트레이션

분류	키워드	설명
가상화 기술	GPU Virtualization, GPU Passthrough, Hypervisor-based VM, vGPU	VM에 GPU를 직접 연결하거나 가상 GPU(vGPU)로 분할하여 다중 사용자 지원
리소스 격리	GPU Resource Isolation, Tenant-level Resource Segregation	사용자 간 GPU 간섭을 방지하는 자원 분리 전략
오케스트레이션	Operator Pattern, Resource Orchestration	K8s 기반 자원의 생성, 확장, 복구를 자동화하는 구조
커스텀 디바이스 연동	K8s Device Plugin	K8s에서 GPU, FPGA 등의 특수 자원을 인식시키는 확장 모듈
이기종 자원 통합	GPU + Custom AI Accelerator Cluster	GPU, NPU, DPU 등 다양한 연산 자원을 하나의 클러스터로 통합 운영하는 구조

🔷 5. AI 인프라 및 데이터센터 전력 설계

분류	키워드	설명
AIDC 구조	AI Data Center (AIDC)	AI 워크로드 전용으로 설계된 고밀도 연산 특화 데이터센터 구조
전력 설계	35kW 랙, Worst-case Power Design, Power Saving Chain	피크 부하를 고려한 전력 설계 및 누적 절전 구조 적용
전원 부품	Inductor / PMIC	전압 안정화 및 전력 효율화에 사용되는 아날로그 전력 부품
실시간 모니터링	Device-level Signal Monitoring, GPU Telemetry	GPU 온도, 팬속, 전력 등의 상태 정보를 실시간 수집하는 구조

🔷 6. 클러스터 관리 및 운영 전략

분류	키워드	설명
공급망 전략	GPU Supply Chain Management, Secondary Sourcing	특정 벤더 종속도를 낮추고, 안정적 GPU 확보를 위한 전략
클러스터 관리	Cluster Manager, Monitoring / Allocation / Deployment	GPU, VM, 컨테이너 등의 상태를 통합적으로 관리하는 시스템
활용도 최적화	Utilization Optimization, QoS, Idle GPU Detection	유휴 자원을 자동 회수하거나 우선순위를 기반으로 할당 최적화
스케줄링 통합	Inference Scheduling / VM Orchestration	추론 요청을 다양한 VM에 분산시키고, 자원 할당을 자동화하여 GPU 활용률을 극대화하는 전략
노드 정책	Node Affinity / Anti-Affinity	워크로드를 특정 노드에 집중 또는 분산시켜 자원 활용 극대화 및 장애 회피

🔷 7. AI 플랫폼 및 워크플로우 자동화

분류	키워드	설명
플랫폼 모델	GPUaaS, Hybrid Cloud, IaaS/PaaS/SaaS	GPU를 구독형 클라우드 자원으로 제공하는 형태
학습 프로세스	Model Training / Tuning / Inference, Precision Format	AI 모델 학습~추론의 전체 흐름 및 정밀도 형식(FP32/BF16 등)
파이프라인	AIOps / MLOps, Airflow / Kubeflow	모델 개발, 배포, 모니터링을 자동화하고, 워크플로우를 시각화하는 시스템
데이터 처리	Data Labeling / Preprocessing, Vector Indexing	AI 학습에 필요한 데이터 주석/전처리와 임베딩 검색을 위한 인덱싱 구조
학습 복구	Checkpointing	장시간 학습 시 중단에 대비해 중간 상태를 저장하고 재시작을 가능하게 함
버전 관리	Model Versioning	모델을 버전 단위로 관리하고, 실험/배포/롤백을 용이하게 하는 체계
인터페이스	Web-based AI Platform, Model Repository	브라우저 기반의 학습 환경 및 모델의 저장/재사용을 위한 저장소

🔷 8. 비용 최적화 및 운영 도구

분류	키워드	설명
비용 분석	Usage-based Billing, TCO Optimization, Cost Reporting	사용량 기반 과금 및 인프라 운영의 총 소유 비용 절감 전략
인스턴스 전략	Reserved Instance Optimization, Spot Instance	장기 예약 인스턴스 또는 유휴 자원 기반의 스팟 인스턴스를 통한 비용 절감
성능 분석	GPU Utilization Metrics, Bottleneck Analysis	GPU 자원의 사용률, 병목 지점 등을 시각화하여 최적화 기반 마련
이상 탐지	AI-based Anomaly Detection	비정상적인 GPU 사용량 또는 요금 급등 패턴을 감지하여 경고 및 제어
재배치	Auto-resizing / Reallocation	자원 재조정 및 리사이징을 통해 클러스터 활용률을 높이는 운영 전략
스케일링	AutoScaler (GPU-aware)	GPU 사용량 또는 워크로드 수요에 따라 Pod/노드 수를 자동 조절하는 기능
관찰성 도구	Prometheus, Grafana, AlertManager, OpenTelemetry	실시간 메트릭 수집 및 시각화를 위한 대표적인 오픈소스 관찰성 도구

🔷 9. GPU 컴파일러 및 디버깅 도구

분류	키워드	설명
컴파일러	ROCm, AOCC, PGI Compiler, OpenACC	AMD 및 NVIDIA용 고성능 GPU 컴파일러 및 오프로드 기술
디버깅	nvidia-smi, cuda-gdb, nsys, nvprof	GPU 상태 확인, 디버깅, 성능 분석을 위한 NVIDIA 도구 모음

===============================================================

🔷 1. HPC 인프라 및 하드웨어 구조

Accelerator: GPU, NPU, Gaudi, MI250 등 특수 연산 장치
HBM (High Bandwidth Memory): GPU 내 고대역폭 메모리
PCIe / Passthrough: PCIe 슬롯 GPU 장착, VM 직접 할당
Baremetal / Service VM: 물리 서버 직접 실행 / VM 기반
NUMA 구조: CPU-GPU 간 메모리 접근 지연 최적화 필요
Power Budget / TDP / Cooling: 전력 및 발열 설계 고려 요소
Vertical Integration: HW~SW까지 수직 최적화 구조
MIG (Multi-Instance GPU): A100/H100에서 GPU 논리 분할
병렬 파일 시스템: Lustre, BeeGFS, Spectrum Scale

🔷 2. 스케줄링 및 분산 학습 전략

Collective Communication / Ring Topology: GPU 간 통신 방식
Distributed Training: GPU 분산 학습 및 파라미터 동기화
Mixed Precision Training: FP16/BF16 혼합 학습 최적화
Gang Scheduling / Elastic Scheduling: 동시 실행/선점 스케줄링
Imbalance Detection: 자원 사용량 불균형 탐지

🔷 3. 네트워킹 및 GPU 패브릭

NVLink / GPU Fabric: GPU 간 고속 인터커넥트
RDMA / GPUDirect RDMA: GPU 메모리 직접 전송
SR-IOV / VF: 가상 NIC 생성 기술
Link Aggregation: NIC 묶기 통한 대역폭 증가
In-Network Computing: 스위치에서 계산 수행
Leaf-Spine / OVS/OVN: 데이터센터 네트워크 구조
SmartNIC / UCIe / Liquid Cooling: 최신 하드웨어 기술

🔷 4. 가상화 및 클러스터 오케스트레이션

vGPU / GPU Passthrough: GPU 가상화 방식
Resource Isolation: 테넌트별 리소스 분리
K8s Operator / Orchestration: 자원 자동 운영
K8s Device Plugin: GPU/FPGA 등 등록 모듈
이기종 클러스터: GPU + NPU + DPU 통합 운영

🔷 5. AI 인프라 및 데이터센터 전력 설계

AIDC 구조: 고밀도 연산 특화 데이터센터
35kW 랙 설계: Worst-case 전력 설계
Inductor / PMIC: 전력 안정화 부품
GPU Telemetry: 온도, 팬속도, 전력 실시간 수집

🔷 6. 클러스터 관리 및 운영 전략

GPU Supply Chain Management: 벤더 종속도 완화 전략
Cluster Manager: 상태 모니터링 / 배포 도구
Utilization Optimization / QoS: 유휴 자원 최적 회수
Inference Scheduling: 추론 요청 분산 처리
Node Affinity / Anti-Affinity: 노드 정책 설정

🔷 7. AI 플랫폼 및 워크플로우 자동화

GPUaaS / Hybrid Cloud: GPU 서비스 플랫폼 형태
Model Training / Inference: 학습-추론 전체 흐름
AIOps / MLOps: 자동화된 파이프라인
Vector Indexing: 벡터 기반 임베딩 검색
Checkpointing: 중단 대비 상태 저장
Model Versioning: 실험/롤백 위한 버전 관리
Web-based Platform: 웹 기반 모델 저장소

🔷 8. 비용 최적화 및 운영 도구

Usage-based Billing / TCO Optimization
Reserved / Spot Instance: 인스턴스 비용 전략
Bottleneck Analysis: 병목 지점 분석
AI-based Anomaly Detection: 이상 징후 탐지
Auto-resizing / AutoScaler (GPU-aware): 자원 재조정
Prometheus / Grafana / OpenTelemetry: 관찰성 도구

🔷 9. GPU 컴파일러 및 디버깅 도구

ROCm / AOCC / OpenACC: GPU용 컴파일러
nvidia-smi / cuda-gdb / nsys / nvprof: 디버깅 및 성능 분석 도구

728x90

저작자표시 비영리 변경금지 (새창열림)

'HPC & GPU Engineering > Platform Essentials' 카테고리의 다른 글

📘 고성능 AI 컴퓨팅 인프라 용어 사전 (5) – MIG (Multi-Instance GPU) (1)	2025.08.03
📘 고성능 AI 컴퓨팅 인프라 용어 사전 (4) – Distributed Training & Parameter Synchronization (1)	2025.08.03
📘 고성능 AI 컴퓨팅 인프라 용어 사전 (3) – NVLink & GPU Fabric (0)	2025.08.03
📘 고성능 AI 컴퓨팅 인프라 용어 사전 (2) – HBM이란 무엇인가? (2)	2025.08.03
📘 고성능 AI 컴퓨팅 인프라 용어 사전 (1) – Accelerator란 무엇인가? (3)	2025.08.03

현재글고성능 AI 컴퓨팅 인프라 기술 키워드 정리 (v1.0)

YG Tech Blog

A blog about IT, covering topics from cloud computing and DevOps to Kubernetes and system architecture. Sharing insights, solutions, and best practices for modern IT professionals

Istio, 쿠버네티스, Cilium, CI/CD, k8s, argocd, kubernetes, gitops, langchain, RAG, 서비스메시, DevOps, Security, statefulset, Python, 파이썬, MLOps, YAML, 서비스_운영, Minio,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

YG Tech Blog

고성능 AI 컴퓨팅 인프라 기술 키워드 정리 (v1.0)

🔷 1. HPC 인프라 및 하드웨어 구조

🔷 2. 스케줄링 및 분산 학습 전략

🔷 3. 네트워킹 및 GPU 패브릭

🔷 4. 가상화 및 클러스터 오케스트레이션

🔷 5. AI 인프라 및 데이터센터 전력 설계

🔷 6. 클러스터 관리 및 운영 전략

🔷 7. AI 플랫폼 및 워크플로우 자동화

🔷 8. 비용 최적화 및 운영 도구

🔷 9. GPU 컴파일러 및 디버깅 도구

🔷 1. HPC 인프라 및 하드웨어 구조

🔷 2. 스케줄링 및 분산 학습 전략

🔷 3. 네트워킹 및 GPU 패브릭

🔷 4. 가상화 및 클러스터 오케스트레이션

🔷 5. AI 인프라 및 데이터센터 전력 설계

🔷 6. 클러스터 관리 및 운영 전략

🔷 7. AI 플랫폼 및 워크플로우 자동화

🔷 8. 비용 최적화 및 운영 도구

🔷 9. GPU 컴파일러 및 디버깅 도구

'HPC & GPU Engineering > Platform Essentials' 카테고리의 다른 글

'HPC & GPU Engineering/Platform Essentials'의 다른글

티스토리툴바

고성능 AI 컴퓨팅 인프라 기술 키워드 정리 (v1.0)

🔷 1. HPC 인프라 및 하드웨어 구조

🔷 2. 스케줄링 및 분산 학습 전략

🔷 3. 네트워킹 및 GPU 패브릭

🔷 4. 가상화 및 클러스터 오케스트레이션

🔷 5. AI 인프라 및 데이터센터 전력 설계

🔷 6. 클러스터 관리 및 운영 전략

🔷 7. AI 플랫폼 및 워크플로우 자동화

🔷 8. 비용 최적화 및 운영 도구

🔷 9. GPU 컴파일러 및 디버깅 도구

🔷 1. HPC 인프라 및 하드웨어 구조

🔷 2. 스케줄링 및 분산 학습 전략

🔷 3. 네트워킹 및 GPU 패브릭

🔷 4. 가상화 및 클러스터 오케스트레이션

🔷 5. AI 인프라 및 데이터센터 전력 설계

🔷 6. 클러스터 관리 및 운영 전략

🔷 7. AI 플랫폼 및 워크플로우 자동화

🔷 8. 비용 최적화 및 운영 도구

🔷 9. GPU 컴파일러 및 디버깅 도구

'HPC & GPU Engineering > Platform Essentials' 카테고리의 다른 글

'HPC & GPU Engineering/Platform Essentials'의 다른글

관련글

티스토리툴바