Python 32

[Airflow 가이드 ep.6] 2부 DAG 작성 #1 | DAG 생성 기초: 기본 구조와 파라미터 이해

이 글에서는 Airflow DAG 파일을 작성하는 기본 방법에 대해 알아봅니다. DAG 파일의 기본 구조와 필수 파라미터들을 상세히 살펴보고, 실제 예제를 통해 DAG 작성법을 익혀보겠습니다. 초보자도 쉽게 이해할 수 있도록 각 요소를 하나씩 설명합니다.📌 DAG 파일의 기본 구조✅ DAG 파일이란?DAG(Directed Acyclic Graph) 파일은 Airflow에서 워크플로우를 정의하는 Python 파일입니다. 이 파일은 작업(Task)과 작업 간의 의존성(Dependencies)을 정의하여 워크플로우의 실행 순서와 방식을 결정합니다.DAG 파일은 기본적으로 다음과 같은 구조를 갖습니다:필요한 라이브러리 임포트기본 인자(default_args) 정의DAG 객체 인스턴스 생성Task 정의Task ..

EP31 | 고급 Python 활용 #20 | Spark 기반 데이터 파이프라인 배포 전략

이 글에서 다루는 개념Spark 기반의 데이터 파이프라인을 효율적으로 배포하고 운영하는 전략을 다룹니다.이번 글에서는 다음 내용을 학습합니다.Spark 데이터 파이프라인 배포 개요Spark 배포 모드별 장단점 (Standalone, YARN, Kubernetes)Airflow와 Spark 연동하여 파이프라인 자동화CI/CD를 활용한 Spark 파이프라인 배포Spark 작업 모니터링 및 유지보수 방법1️⃣ Spark 데이터 파이프라인 배포 개요📌 데이터 파이프라인 배포란?데이터를 수집 → 처리 → 저장하는 Spark 애플리케이션을 운영 환경에 배포하는 과정실시간 또는 배치 처리 방식에 따라 다른 배포 전략 적용📌 Spark 배포 방식 비교 배포 방식 설명 장점 단점 Standalone단일 Spar..

EP30 | 고급 Python 활용 #19 | Spark를 활용한 데이터 엔지니어링 Best Practices

이 글에서 다루는 개념Apache Spark를 활용한 데이터 엔지니어링에서 성능 최적화, 유지보수성 향상, 안정적인 데이터 처리를 위한 Best Practices를 다룹니다.이번 글에서는 다음 내용을 학습합니다.Spark 데이터 엔지니어링 Best Practices 개요데이터 읽기/쓰기 성능 최적화메모리 및 실행 최적화 (Shuffle, Partitioning)모니터링 및 디버깅 기법데이터 파이프라인 유지보수 전략1️⃣ Spark 데이터 엔지니어링 Best Practices 개요📌 Spark 성능 최적화를 위한 핵심 전략 최적화 대상  주요 기법 데이터 읽기/쓰기CSV 대신 Parquet/ORC 포맷 사용실행 계획 최적화cache(), persist() 사용메모리 최적화적절한 repartition()..

EP29 | 고급 Python 활용 #18 | Spark와 Delta Lake를 활용한 데이터 레이크 아키텍처

이 글에서 다루는 개념Delta Lake는 ACID 트랜잭션을 지원하는 확장 가능한 데이터 레이크 솔루션입니다.이번 글에서는 다음 내용을 학습합니다.데이터 레이크(Data Lake) 개념 및 Delta Lake의 필요성Spark와 Delta Lake 연동하여 데이터 저장 및 관리Delta Lake의 ACID 트랜잭션 및 데이터 버전 관리Schema Evolution을 활용한 데이터 변경 처리Spark SQL을 활용한 Delta 테이블 분석1️⃣ 데이터 레이크(Data Lake)와 Delta Lake 개념📌 데이터 레이크란?원시 데이터(정형, 비정형)를 그대로 저장하여 분석할 수 있는 저장소대규모 데이터 저장이 가능하지만, 데이터 무결성(ACID 보장)이 부족📌 Delta Lake란?Apache Spa..

EP28 | 고급 Python 활용 #17 | Spark와 Hadoop을 결합한 대규모 데이터 분석 아키텍처

이 글에서 다루는 개념Apache Spark와 Hadoop을 함께 활용하면 대용량 데이터를 효율적으로 저장하고 분석할 수 있습니다.이번 글에서는 다음 내용을 학습합니다.Hadoop과 Spark의 차이 및 결합 방식Spark와 HDFS 연동하여 데이터 저장 및 분석YARN을 활용한 Spark 클러스터 관리Hive를 활용한 대용량 데이터 쿼리 실행Spark와 Hadoop을 활용한 실전 데이터 분석 사례1️⃣ Hadoop과 Spark의 차이 및 결합 방식📌 Hadoop과 Spark의 차이점 항목  Hadoop (MapReduce) Spark 처리 방식디스크 기반 (Batch Processing)메모리 기반 (In-Memory Processing)속도상대적으로 느림빠름 (100배 이상)주요 사용 사례장기적..

EP27 | 고급 Python 활용 #16 | Spark를 활용한 머신러닝 기반 이상 탐지 시스템 구축

이 글에서 다루는 개념Apache Spark의 MLlib을 활용하여 대량의 데이터를 분석하고 이상값(Anomaly)을 탐지하는 방법을 배웁니다.이번 글에서는 다음 내용을 학습합니다.이상 탐지(Anomaly Detection) 개념PySpark MLlib을 활용한 이상 탐지 모델 구축이상 탐지를 위한 통계적 기법 및 머신러닝 기법 비교Spark Streaming을 활용한 실시간 이상 탐지1️⃣ 이상 탐지(Anomaly Detection)란?📌 이상 탐지란?정상적인 패턴에서 벗어난 데이터를 식별하는 기술금융 사기 탐지, 네트워크 보안, 산업 장비 이상 감지, 품질 관리 등에 활용📌 이상 탐지 기법 비교 방식 설명 통계적 기법평균, 표준편차를 활용한 이상 탐지 (IQR, Z-score 등)머신러닝 기반이..

EP26 | 고급 Python 활용 #15 | Spark를 활용한 실시간 데이터 파이프라인 구축

이 글에서 다루는 개념Apache Spark는 대용량 데이터를 실시간으로 수집, 처리, 저장하는 데이터 파이프라인을 구축할 수 있습니다.이번 글에서는 다음 내용을 학습합니다.데이터 파이프라인 개념 및 Spark 구조Spark Streaming을 활용한 실시간 데이터 처리Kafka와 연동하여 데이터 스트림 구축Spark와 데이터베이스 연동하여 데이터 저장ELT(Extract, Load, Transform) 및 ETL(Extract, Transform, Load) 비교1️⃣ 데이터 파이프라인 개념 및 Spark 구조📌 데이터 파이프라인이란?데이터를 수집(Extract) → 변환(Transform) → 저장(Load)하는 과정실시간 데이터 처리를 위해 Spark Streaming, Kafka, 데이터베이스와..

EP25 | 고급 Python 활용 #14 | Spark를 활용한 실시간 추천 시스템 구축

이 글에서 다루는 개념Apache Spark를 활용하면 대용량 데이터를 기반으로 실시간 추천 시스템을 구축할 수 있습니다.이번 글에서는 다음 내용을 학습합니다.추천 시스템 개념 및 Spark의 ALS(Alternating Least Squares) 알고리즘PySpark MLlib을 사용한 협업 필터링(Collaborative Filtering)사용자 기반 및 아이템 기반 추천 모델 구축실시간 추천 시스템 구현1️⃣ 추천 시스템 개념📌 추천 시스템이란?사용자에게 맞춤형 콘텐츠(영화, 음악, 상품 등)를 추천하는 기술**협업 필터링(Collaborative Filtering)**과 콘텐츠 기반 추천(Content-Based Filtering) 방식이 있음📌 추천 시스템 유형 추천 방식 설명 협업 필터링..

EP24 | 고급 Python 활용 #13 | Spark GraphX를 활용한 그래프 데이터 분석

이 글에서 다루는 개념Apache Spark의 GraphX는 대용량 그래프 데이터를 분석하는 라이브러리입니다.이번 글에서는 다음 내용을 학습합니다.Spark GraphX 개념 및 아키텍처PySpark GraphFrames 설치 및 환경 설정그래프 데이터 생성 및 시각화PageRank 알고리즘을 활용한 중요 노드 분석연결된 컴포넌트(Connected Components) 분석1️⃣ Spark GraphX란?📌 Spark GraphX란?그래프 데이터를 병렬 분산 처리하는 Spark 라이브러리SNS 네트워크 분석, 추천 시스템, 웹 페이지 랭킹(PageRank) 계산 등에 활용RDD 기반의 GraphX와 DataFrame 기반의 GraphFrames 제공📌 GraphX 주요 개념  개념 설명 Vertex..

EP23 | 고급 Python 활용 #12 | Spark MLlib을 활용한 머신러닝 데이터 분석

이 글에서 다루는 개념Apache Spark의 MLlib은 대규모 데이터에서 머신러닝 모델을 학습하고 예측하는 라이브러리입니다.이번 글에서는 다음 내용을 학습합니다.Spark MLlib 개념 및 아키텍처PySpark를 활용한 데이터 전처리선형 회귀(Linear Regression) 모델 학습랜덤 포레스트(Random Forest) 모델 활용Spark ML Pipelines을 사용한 머신러닝 워크플로우 구성1️⃣ Spark MLlib이란?📌 Spark MLlib이란?대용량 데이터를 병렬 분산 처리하여 머신러닝을 수행하는 Spark 라이브러리데이터프레임 기반의 ML API(pyspark.ml) 제공📌 MLlib에서 지원하는 주요 알고리즘 모델  설명 선형 회귀연속형 값을 예측하는 모델로지스틱 회귀분류(..

728x90