데이터파이프라인 2

EP26 | 고급 Python 활용 #15 | Spark를 활용한 실시간 데이터 파이프라인 구축

이 글에서 다루는 개념Apache Spark는 대용량 데이터를 실시간으로 수집, 처리, 저장하는 데이터 파이프라인을 구축할 수 있습니다.이번 글에서는 다음 내용을 학습합니다.데이터 파이프라인 개념 및 Spark 구조Spark Streaming을 활용한 실시간 데이터 처리Kafka와 연동하여 데이터 스트림 구축Spark와 데이터베이스 연동하여 데이터 저장ELT(Extract, Load, Transform) 및 ETL(Extract, Transform, Load) 비교1️⃣ 데이터 파이프라인 개념 및 Spark 구조📌 데이터 파이프라인이란?데이터를 수집(Extract) → 변환(Transform) → 저장(Load)하는 과정실시간 데이터 처리를 위해 Spark Streaming, Kafka, 데이터베이스와..

EP20 | 고급 Python 활용 #9 | 데이터 자동화 및 작업 스케줄링 (Airflow)

이 글에서 다루는 개념Python에서는 Apache Airflow를 사용하여 작업 자동화 및 데이터 파이프라인을 관리할 수 있습니다.이번 글에서는 다음 내용을 학습합니다.Airflow 개념 및 아키텍처Airflow 설치 및 실행 방법DAG(Directed Acyclic Graph) 개념 및 기본 작성법태스크(Task) 및 연산자(Operator) 활용크론(Cron) 스케줄링을 활용한 자동 실행1️⃣ Apache Airflow란?📌 Apache Airflow란?데이터 파이프라인 및 작업 자동화를 위한 워크플로우 관리 도구DAG(Directed Acyclic Graph) 개념을 기반으로 태스크 실행 흐름을 제어스케줄링 기능을 통해 주기적인 작업 자동화 가능📌 Airflow 주요 개념  개념 설명 DAG..

728x90