스트리밍 2

EP26 | 고급 Python 활용 #15 | Spark를 활용한 실시간 데이터 파이프라인 구축

이 글에서 다루는 개념Apache Spark는 대용량 데이터를 실시간으로 수집, 처리, 저장하는 데이터 파이프라인을 구축할 수 있습니다.이번 글에서는 다음 내용을 학습합니다.데이터 파이프라인 개념 및 Spark 구조Spark Streaming을 활용한 실시간 데이터 처리Kafka와 연동하여 데이터 스트림 구축Spark와 데이터베이스 연동하여 데이터 저장ELT(Extract, Load, Transform) 및 ETL(Extract, Transform, Load) 비교1️⃣ 데이터 파이프라인 개념 및 Spark 구조📌 데이터 파이프라인이란?데이터를 수집(Extract) → 변환(Transform) → 저장(Load)하는 과정실시간 데이터 처리를 위해 Spark Streaming, Kafka, 데이터베이스와..

EP22 | 고급 Python 활용 #11 | Spark Streaming을 활용한 실시간 데이터 처리

이 글에서 다루는 개념Apache Spark Streaming은 실시간 데이터 스트리밍을 처리하는 프레임워크입니다.이번 글에서는 다음 내용을 학습합니다.Spark Streaming 개념 및 아키텍처PySpark Streaming 환경 설정소켓 데이터 스트림 처리 (socketTextStream)Kafka와 Spark Streaming 연동실시간 데이터 집계 및 분석1️⃣ Spark Streaming이란?📌 Spark Streaming이란?실시간 데이터 처리 프레임워크데이터 스트림을 작은 배치(batch) 단위로 처리하여 분석 가능Kafka, Flume, Kinesis, Socket 등 다양한 데이터 소스로부터 스트림 데이터 수집 가능📌 Spark Streaming 아키텍처개념 설명DStreamDisc..

728x90