실시간처리 2

EP27 | 고급 Python 활용 #16 | Spark를 활용한 머신러닝 기반 이상 탐지 시스템 구축

이 글에서 다루는 개념Apache Spark의 MLlib을 활용하여 대량의 데이터를 분석하고 이상값(Anomaly)을 탐지하는 방법을 배웁니다.이번 글에서는 다음 내용을 학습합니다.이상 탐지(Anomaly Detection) 개념PySpark MLlib을 활용한 이상 탐지 모델 구축이상 탐지를 위한 통계적 기법 및 머신러닝 기법 비교Spark Streaming을 활용한 실시간 이상 탐지1️⃣ 이상 탐지(Anomaly Detection)란?📌 이상 탐지란?정상적인 패턴에서 벗어난 데이터를 식별하는 기술금융 사기 탐지, 네트워크 보안, 산업 장비 이상 감지, 품질 관리 등에 활용📌 이상 탐지 기법 비교 방식 설명 통계적 기법평균, 표준편차를 활용한 이상 탐지 (IQR, Z-score 등)머신러닝 기반이..

EP26 | 고급 Python 활용 #15 | Spark를 활용한 실시간 데이터 파이프라인 구축

이 글에서 다루는 개념Apache Spark는 대용량 데이터를 실시간으로 수집, 처리, 저장하는 데이터 파이프라인을 구축할 수 있습니다.이번 글에서는 다음 내용을 학습합니다.데이터 파이프라인 개념 및 Spark 구조Spark Streaming을 활용한 실시간 데이터 처리Kafka와 연동하여 데이터 스트림 구축Spark와 데이터베이스 연동하여 데이터 저장ELT(Extract, Load, Transform) 및 ETL(Extract, Transform, Load) 비교1️⃣ 데이터 파이프라인 개념 및 Spark 구조📌 데이터 파이프라인이란?데이터를 수집(Extract) → 변환(Transform) → 저장(Load)하는 과정실시간 데이터 처리를 위해 Spark Streaming, Kafka, 데이터베이스와..

728x90