Yarn 2

EP31 | 고급 Python 활용 #20 | Spark 기반 데이터 파이프라인 배포 전략

이 글에서 다루는 개념Spark 기반의 데이터 파이프라인을 효율적으로 배포하고 운영하는 전략을 다룹니다.이번 글에서는 다음 내용을 학습합니다.Spark 데이터 파이프라인 배포 개요Spark 배포 모드별 장단점 (Standalone, YARN, Kubernetes)Airflow와 Spark 연동하여 파이프라인 자동화CI/CD를 활용한 Spark 파이프라인 배포Spark 작업 모니터링 및 유지보수 방법1️⃣ Spark 데이터 파이프라인 배포 개요📌 데이터 파이프라인 배포란?데이터를 수집 → 처리 → 저장하는 Spark 애플리케이션을 운영 환경에 배포하는 과정실시간 또는 배치 처리 방식에 따라 다른 배포 전략 적용📌 Spark 배포 방식 비교 배포 방식 설명 장점 단점 Standalone단일 Spar..

EP28 | 고급 Python 활용 #17 | Spark와 Hadoop을 결합한 대규모 데이터 분석 아키텍처

이 글에서 다루는 개념Apache Spark와 Hadoop을 함께 활용하면 대용량 데이터를 효율적으로 저장하고 분석할 수 있습니다.이번 글에서는 다음 내용을 학습합니다.Hadoop과 Spark의 차이 및 결합 방식Spark와 HDFS 연동하여 데이터 저장 및 분석YARN을 활용한 Spark 클러스터 관리Hive를 활용한 대용량 데이터 쿼리 실행Spark와 Hadoop을 활용한 실전 데이터 분석 사례1️⃣ Hadoop과 Spark의 차이 및 결합 방식📌 Hadoop과 Spark의 차이점 항목  Hadoop (MapReduce) Spark 처리 방식디스크 기반 (Batch Processing)메모리 기반 (In-Memory Processing)속도상대적으로 느림빠름 (100배 이상)주요 사용 사례장기적..

728x90