'kafka' 태그의 글 목록

kafka 5

EP09. L7 정책 실습 (Kafka, DNS 등) | HTTP 요청이 아닌 트래픽 제어

이 글에서는 Cilium을 활용하여 HTTP 외의 다른 L7(애플리케이션 계층) 프로토콜인 Kafka와 DNS 트래픽을 제어하는 방법을 실습합니다. 이전 글에서 HTTP 트래픽에 대한 경로, 메서드, 호스트 기반 필터링을 살펴봤다면, 이번에는 메시징 시스템과 도메인 이름 조회 등 다양한 프로토콜에 대한 세밀한 보안 정책을 구현하는 방법을 알아보겠습니다. 특히 toFQDNs, toEndpoints와 같은 Cilium의 고급 기능을 활용하여 실제 마이크로서비스 환경에서 유용하게 적용할 수 있는 실전 예제를 다룹니다.📌 L7 Kafka 정책✅ Kafka 프로토콜 개요Kafka는 대용량 실시간 데이터 스트리밍을 위한 분산 메시징 시스템으로, 마이크로서비스 아키텍처에서 많이 사용됩니다. Kafka의 주요 개념을..

Kubernetes Tools/Cilium 2025.03.22

EP26 | 고급 Python 활용 #15 | Spark를 활용한 실시간 데이터 파이프라인 구축

이 글에서 다루는 개념Apache Spark는 대용량 데이터를 실시간으로 수집, 처리, 저장하는 데이터 파이프라인을 구축할 수 있습니다.이번 글에서는 다음 내용을 학습합니다.데이터 파이프라인 개념 및 Spark 구조Spark Streaming을 활용한 실시간 데이터 처리Kafka와 연동하여 데이터 스트림 구축Spark와 데이터베이스 연동하여 데이터 저장ELT(Extract, Load, Transform) 및 ETL(Extract, Transform, Load) 비교1️⃣ 데이터 파이프라인 개념 및 Spark 구조📌 데이터 파이프라인이란?데이터를 수집(Extract) → 변환(Transform) → 저장(Load)하는 과정실시간 데이터 처리를 위해 Spark Streaming, Kafka, 데이터베이스와..

Data Engineering/python 2025.03.19

EP22 | 고급 Python 활용 #11 | Spark Streaming을 활용한 실시간 데이터 처리

이 글에서 다루는 개념Apache Spark Streaming은 실시간 데이터 스트리밍을 처리하는 프레임워크입니다.이번 글에서는 다음 내용을 학습합니다.Spark Streaming 개념 및 아키텍처PySpark Streaming 환경 설정소켓 데이터 스트림 처리 (socketTextStream)Kafka와 Spark Streaming 연동실시간 데이터 집계 및 분석1️⃣ Spark Streaming이란?📌 Spark Streaming이란?실시간 데이터 처리 프레임워크데이터 스트림을 작은 배치(batch) 단위로 처리하여 분석 가능Kafka, Flume, Kinesis, Socket 등 다양한 데이터 소스로부터 스트림 데이터 수집 가능📌 Spark Streaming 아키텍처개념 설명DStreamDisc..

Data Engineering/python 2025.03.19

📌 [StatefulSet 심화편 #18] StatefulSet에서 Sharding(샤딩) 적용 방법

1️⃣ 개요 StatefulSet을 사용하여 대규모 데이터를 효율적으로 관리하려면, 단순한 리더-팔로워(Replica) 방식만으로는 한계가 있습니다.특히, 데이터가 지속적으로 증가하고, 높은 트래픽을 처리해야 하는 경우 Sharding(샤딩) 기법이 필수적입니다. 이번 글에서는 StatefulSet에서 Sharding을 적용하는 방법과, 데이터베이스(MongoDB, Elasticsearch, Kafka) 및 분산 시스템에서의 샤딩 활용 전략을 설명하겠습니다. 🚀 2️⃣ Sharding(샤딩)이란? 📌 Sharding(샤딩)의 개념Sharding은 데이터를 여러 개의 작은 단위(Shard)로 나누어 저장하고 관리하는 기술입니다.이를 통해 수평 확장(Scalability) 이 가능해지고, 대규모 데이터베..

Kubernetes/Kubernetes Advanced 2025.03.14

[14편] 실시간 스트리밍 데이터와 pgvector 연동

이 글에서는 실시간 스트리밍 데이터를 PostgreSQL pgvector와 연동하여 벡터 검색 시스템을 구축하는 방법을 다룹니다.특히, Kafka 또는 Apache Pulsar를 활용하여 벡터 데이터를 지속적으로 저장하고, 실시간으로 AI 검색에 활용하는 전략을 설명합니다. ✅ Kafka 또는 Pulsar를 활용한 실시간 벡터 데이터 삽입✅ pgvector와 스트리밍 데이터를 연동하여 실시간 검색 시스템 구축✅ 성능 최적화를 위한 벡터 데이터 배치 처리 전략 🚀 1. 실시간 스트리밍 데이터와 pgvector를 연동하는 이유 ✅ 실시간 벡터 검색 시스템 구축 시 고려해야 할 사항1️⃣ AI 검색 시스템에서 데이터는 계속해서 추가 & 업데이트됨2️⃣ 배치(Batch) 처리 방식보다 실시간(Streaming..

Data Engineering/Data Infra & Process 2025.03.07

YG Tech Blog

A blog about IT, covering topics from cloud computing and DevOps to Kubernetes and system architecture. Sharing insights, solutions, and best practices for modern IT professionals

서비스_운영, RAG, langchain, Cilium, DaemonSet, CI/CD, gitops, 파이썬, Minio, 쿠버네티스, Istio, Security, 서비스메시, Python, YAML, k8s, DevOps, statefulset, kubernetes, argocd,

Today :
Yesterday :

728x90

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

kafka 5

티스토리툴바