'데이터 엔지니어링' 태그의 글 목록

데이터 엔지니어링 2

EP30 | 고급 Python 활용 #19 | Spark를 활용한 데이터 엔지니어링 Best Practices

이 글에서 다루는 개념Apache Spark를 활용한 데이터 엔지니어링에서 성능 최적화, 유지보수성 향상, 안정적인 데이터 처리를 위한 Best Practices를 다룹니다.이번 글에서는 다음 내용을 학습합니다.Spark 데이터 엔지니어링 Best Practices 개요데이터 읽기/쓰기 성능 최적화메모리 및 실행 최적화 (Shuffle, Partitioning)모니터링 및 디버깅 기법데이터 파이프라인 유지보수 전략1️⃣ Spark 데이터 엔지니어링 Best Practices 개요📌 Spark 성능 최적화를 위한 핵심 전략 최적화 대상 주요 기법 데이터 읽기/쓰기CSV 대신 Parquet/ORC 포맷 사용실행 계획 최적화cache(), persist() 사용메모리 최적화적절한 repartition()..

Data Engineering/python 2025.03.19

EP29 | 고급 Python 활용 #18 | Spark와 Delta Lake를 활용한 데이터 레이크 아키텍처

이 글에서 다루는 개념Delta Lake는 ACID 트랜잭션을 지원하는 확장 가능한 데이터 레이크 솔루션입니다.이번 글에서는 다음 내용을 학습합니다.데이터 레이크(Data Lake) 개념 및 Delta Lake의 필요성Spark와 Delta Lake 연동하여 데이터 저장 및 관리Delta Lake의 ACID 트랜잭션 및 데이터 버전 관리Schema Evolution을 활용한 데이터 변경 처리Spark SQL을 활용한 Delta 테이블 분석1️⃣ 데이터 레이크(Data Lake)와 Delta Lake 개념📌 데이터 레이크란?원시 데이터(정형, 비정형)를 그대로 저장하여 분석할 수 있는 저장소대규모 데이터 저장이 가능하지만, 데이터 무결성(ACID 보장)이 부족📌 Delta Lake란?Apache Spa..

Data Engineering/python 2025.03.19

YG Tech Blog

A blog about IT, covering topics from cloud computing and DevOps to Kubernetes and system architecture. Sharing insights, solutions, and best practices for modern IT professionals

RAG, Istio, langchain, k8s, 쿠버네티스, Python, Minio, argocd, 파이썬, DevOps, YAML, CI/CD, DaemonSet, statefulset, Cilium, Security, 서비스메시, gitops, 서비스_운영, kubernetes,

Today :
Yesterday :

728x90

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

데이터 엔지니어링 2

티스토리툴바