실시간데이터 2

EP22 | 고급 Python 활용 #11 | Spark Streaming을 활용한 실시간 데이터 처리

이 글에서 다루는 개념Apache Spark Streaming은 실시간 데이터 스트리밍을 처리하는 프레임워크입니다.이번 글에서는 다음 내용을 학습합니다.Spark Streaming 개념 및 아키텍처PySpark Streaming 환경 설정소켓 데이터 스트림 처리 (socketTextStream)Kafka와 Spark Streaming 연동실시간 데이터 집계 및 분석1️⃣ Spark Streaming이란?📌 Spark Streaming이란?실시간 데이터 처리 프레임워크데이터 스트림을 작은 배치(batch) 단위로 처리하여 분석 가능Kafka, Flume, Kinesis, Socket 등 다양한 데이터 소스로부터 스트림 데이터 수집 가능📌 Spark Streaming 아키텍처개념 설명DStreamDisc..

[14편] 실시간 스트리밍 데이터와 pgvector 연동

이 글에서는 실시간 스트리밍 데이터를 PostgreSQL pgvector와 연동하여 벡터 검색 시스템을 구축하는 방법을 다룹니다.특히, Kafka 또는 Apache Pulsar를 활용하여 벡터 데이터를 지속적으로 저장하고, 실시간으로 AI 검색에 활용하는 전략을 설명합니다. ✅ Kafka 또는 Pulsar를 활용한 실시간 벡터 데이터 삽입✅ pgvector와 스트리밍 데이터를 연동하여 실시간 검색 시스템 구축✅ 성능 최적화를 위한 벡터 데이터 배치 처리 전략 🚀 1. 실시간 스트리밍 데이터와 pgvector를 연동하는 이유 ✅ 실시간 벡터 검색 시스템 구축 시 고려해야 할 사항1️⃣ AI 검색 시스템에서 데이터는 계속해서 추가 & 업데이트됨2️⃣ 배치(Batch) 처리 방식보다 실시간(Streaming..

728x90