데이터 엔지니어링 2

EP30 | 고급 Python 활용 #19 | Spark를 활용한 데이터 엔지니어링 Best Practices

이 글에서 다루는 개념Apache Spark를 활용한 데이터 엔지니어링에서 성능 최적화, 유지보수성 향상, 안정적인 데이터 처리를 위한 Best Practices를 다룹니다.이번 글에서는 다음 내용을 학습합니다.Spark 데이터 엔지니어링 Best Practices 개요데이터 읽기/쓰기 성능 최적화메모리 및 실행 최적화 (Shuffle, Partitioning)모니터링 및 디버깅 기법데이터 파이프라인 유지보수 전략1️⃣ Spark 데이터 엔지니어링 Best Practices 개요📌 Spark 성능 최적화를 위한 핵심 전략 최적화 대상  주요 기법 데이터 읽기/쓰기CSV 대신 Parquet/ORC 포맷 사용실행 계획 최적화cache(), persist() 사용메모리 최적화적절한 repartition()..

EP29 | 고급 Python 활용 #18 | Spark와 Delta Lake를 활용한 데이터 레이크 아키텍처

이 글에서 다루는 개념Delta Lake는 ACID 트랜잭션을 지원하는 확장 가능한 데이터 레이크 솔루션입니다.이번 글에서는 다음 내용을 학습합니다.데이터 레이크(Data Lake) 개념 및 Delta Lake의 필요성Spark와 Delta Lake 연동하여 데이터 저장 및 관리Delta Lake의 ACID 트랜잭션 및 데이터 버전 관리Schema Evolution을 활용한 데이터 변경 처리Spark SQL을 활용한 Delta 테이블 분석1️⃣ 데이터 레이크(Data Lake)와 Delta Lake 개념📌 데이터 레이크란?원시 데이터(정형, 비정형)를 그대로 저장하여 분석할 수 있는 저장소대규모 데이터 저장이 가능하지만, 데이터 무결성(ACID 보장)이 부족📌 Delta Lake란?Apache Spa..

728x90