'분류 전체보기' 카테고리의 글 목록 (51 Page)

분류 전체보기 581

이 글에서는 실시간 스트리밍 데이터를 PostgreSQL pgvector와 연동하여 벡터 검색 시스템을 구축하는 방법을 다룹니다.특히, Kafka 또는 Apache Pulsar를 활용하여 벡터 데이터를 지속적으로 저장하고, 실시간으로 AI 검색에 활용하는 전략을 설명합니다. ✅ Kafka 또는 Pulsar를 활용한 실시간 벡터 데이터 삽입✅ pgvector와 스트리밍 데이터를 연동하여 실시간 검색 시스템 구축✅ 성능 최적화를 위한 벡터 데이터 배치 처리 전략 🚀 1. 실시간 스트리밍 데이터와 pgvector를 연동하는 이유 ✅ 실시간 벡터 검색 시스템 구축 시 고려해야 할 사항1️⃣ AI 검색 시스템에서 데이터는 계속해서 추가 & 업데이트됨2️⃣ 배치(Batch) 처리 방식보다 실시간(Streaming..

Data Engineering/Data Infra & Process 2025.03.07

[13편] 운영 자동화 (Airflow & Kubernetes)

이 글에서는 PostgreSQL pgvector 기반 벡터 검색 시스템을 Airflow와 Kubernetes를 활용하여 자동화하는 방법을 다룹니다.특히, Airflow로 벡터 데이터를 자동 업데이트하고, Kubernetes CronJob & HPA(Auto Scaling)를 적용하여 운영을 최적화하는 실무적인 방법을 정리합니다. ✅ Airflow를 활용한 벡터 데이터 자동 업데이트 및 관리✅ Kubernetes CronJob을 활용한 주기적 벡터 데이터 백업 & 최적화✅ HPA(Auto Scaling) 적용으로 AI 검색 시스템의 자동 확장 🚀 1. Airflow를 활용한 벡터 데이터 자동 업데이트 🔹 1️⃣ Airflow를 활용하는 이유 ✅ AI 검색 시스템에서 벡터 데이터는 지속적으로 추가 & ..

Data Engineering/Data Infra & Process 2025.03.07

[12편] 벡터 검색 성능 최적화 (HNSW & IVFFlat 비교 및 튜닝)

이 글에서는 PostgreSQL pgvector의 벡터 검색 성능을 최적화하는 방법을 다룹니다.특히, HNSW(Hierarchical Navigable Small World)와 IVFFlat(Indexed Flat) 인덱스 비교,병렬 쿼리(Parallel Query), Query Caching을 활용한 검색 속도 개선 방법까지 실무적으로 적용할 수 있도록 정리합니다. ✅ HNSW vs IVFFlat 인덱스 비교 및 벡터 검색 최적화✅ Parallel Query, Query Caching을 활용한 검색 속도 개선✅ PostgreSQL pgvector 성능 튜닝 (work_mem, parallel_workers_per_gather) 🚀 1. 벡터 검색 성능 최적화 개요 PostgreSQL pgvector는..

Data Engineering/Data Infra & Process 2025.03.07

[11편] 벡터 데이터 백업 & 복원 (데이터 유실 방지 및 관리)

📌 개요 이 글에서는 PostgreSQL pgvector의 벡터 데이터를 안정적으로 백업하고 복원하는 방법을 다룹니다.특히, 백업 자동화, 데이터 유실 방지, AWS S3 또는 Kubernetes CronJob을 활용한 자동 백업 전략까지 실무에 맞게 정리합니다. ✅ 벡터 데이터를 보호하는 백업 전략 (pg_dump, WAL, PITR)✅ AWS S3 또는 Kubernetes CronJob을 활용한 자동 백업✅ 벡터 데이터의 손실 없이 빠른 복원 방법 🚀 1. PostgreSQL 벡터 데이터 백업 전략 벡터 데이터는 대량으로 저장되므로 데이터 손실을 방지하기 위한 강력한 백업 전략이 필요합니다. ✅ PostgreSQL에서 벡터 데이터를 백업하는 주요 방법백업 방법설명추천 사용 사례pg_dump데이터베..

Data Engineering/Data Infra & Process 2025.03.07

[10편] 대규모 벡터 데이터 관리 (샤딩 & 메모리 최적화)

이 글에서는 PostgreSQL pgvector를 활용하여 대규모 벡터 데이터를 효율적으로 저장하고 관리하는 방법을 다룹니다.특히, 샤딩(Sharding), 테이블 파티셔닝(Partitioning), 메모리 최적화(shared_buffers, work_mem 등) 을 통해 성능을 극대화하는 방법을 설명합니다. ✅ 대량 벡터 데이터를 저장하는 방법 (샤딩 & 파티셔닝 적용)✅ PostgreSQL 메모리 최적화 (shared_buffers, work_mem)✅ 빠른 검색을 위한 저장소 엔진 및 인덱싱 전략 🚀 1. 대량 벡터 데이터 저장 전략: 샤딩(Sharding) vs 파티셔닝(Partitioning) 벡터 데이터는 보통 수십만~수억 개 이상의 벡터를 저장해야 합니다.PostgreSQL에서 효율적인 데..

Data Engineering/Data Infra & Process 2025.03.07

[9편] AI 모델과 pgvector 연동: 임베딩 기반 검색 시스템 구축

이 글에서는 AI 모델을 사용하여 문장을 벡터(Embedding)로 변환하고, pgvector를 활용하여 AI 검색 시스템을 구축하는 방법을 다룹니다.✅ OpenAI text-embedding-ada-002 및 Hugging Face sentence-transformers 활용✅ 임베딩 벡터를 pgvector에 저장하고, 유사한 검색 결과 반환✅ FastAPI를 이용해 벡터 검색 API 구축 🚀 1. AI 모델을 활용한 벡터 변환(Embedding) 1️⃣ AI 임베딩 모델이란? 임베딩(Embedding)은 텍스트, 이미지, 음성 등의 데이터를 벡터 형태로 변환하는 기술입니다.이 벡터는 유사한 의미를 가지는 데이터끼리 가까운 위치에 배치되도록 학습됩니다. ✅ AI 검색 시스템에서 임베딩 활용 방식1️⃣..

Data Engineering/Data Infra & Process 2025.03.07

[8편] pgvector를 활용한 대규모 AI 검색 시스템 구축 & 운영 전략

📌 개요 이 글에서는 PostgreSQL pgvector를 효과적으로 활용하여 AI 검색을 구축하고 운영하는 전략을 다룹니다.특히, 대규모 벡터 데이터를 효과적으로 저장 & 검색하는 DB 설계, 벡터 데이터의 백업 및 최적화, 성능 개선 기법 등을 다룹니다. ✅ pgvector를 AI 검색 시스템에 적용하는 실제 사례✅ 대규모 벡터 데이터를 효과적으로 저장 & 검색하는 DB 설계✅ 벡터 데이터 백업, 모니터링, 성능 최적화 방법✅ 클라우드 환경(AWS, GCP, Azure)에서 pgvector 운영 고려 사항 🚀 1. AI 검색 시스템에서 pgvector 활용 사례 🔹 1️⃣ 문서 검색 시스템 (AI RAG) ✅ 사용 사례: 대규모 문서에서 AI가 적절한 문장을 찾아 응답하는 Retrieval-A..

Data Engineering/Data Infra & Process 2025.03.07

[7편] FastAPI 벡터 검색 성능 최적화 (pgvector 인덱스 및 Auto Scaling 적용)

📌 개요 이 글에서는 FastAPI + PostgreSQL + pgvector를 활용한 대규모 벡터 검색 성능 최적화 방법을 다룹니다.✅ pgvector의 HNSW(Hierarchical Navigable Small World) 인덱스를 활용한 검색 속도 개선✅ 대량 벡터 데이터 처리 및 검색 최적화✅ Kubernetes에서 FastAPI의 Auto Scaling 적용 🚀 1. pgvector의 성능 최적화를 위한 HNSW 인덱스 적용 pgvector는 벡터 검색을 최적화하기 위해 L2 distance (유클리드 거리), Cosine similarity, Inner product 등의 방법을 지원합니다.HNSW(Hierarchical Navigable Small World) 인덱스를 활용하면 대규모 ..

Data Engineering/Data Infra & Process 2025.03.07

[6편] FastAPI 벡터 검색 API를 Kubernetes에 배포

📌 개요 이 글에서는 FastAPI 벡터 검색 API를 Docker 컨테이너로 패키징하고, Kubernetes에 배포하는 방법을 설명합니다.✅ FastAPI를 Docker로 컨테이너화✅ Kubernetes에서 PostgreSQL과 연동하여 FastAPI 실행✅ Helm & ArgoCD를 활용한 GitOps 기반 배포 🚀 1. FastAPI Docker 컨테이너화 FastAPI 애플리케이션을 Kubernetes에서 실행하려면 Docker 컨테이너로 패키징해야 합니다. 1️⃣ Dockerfile 생성 📌 프로젝트 디렉터리 (fastapi-vector-search/)에 Dockerfile 추가# Base imageFROM python:3.9# Set working directoryWORKDIR /app#..

Data Engineering/Data Infra & Process 2025.03.07

[5편] FastAPI와 PostgreSQL을 활용한 벡터 검색 API 구축

📌 개요 이 글에서는 FastAPI + PostgreSQL + pgvector를 활용하여 벡터 검색 API를 구축하는 방법을 설명합니다.✅ pgvector를 사용하여 벡터 데이터 저장✅ FastAPI를 이용해 REST API로 벡터 검색 기능 구현✅ AI 모델을 활용하여 텍스트 임베딩을 벡터로 변환 후 저장 🚀 1. FastAPI 프로젝트 설정 먼저, FastAPI 프로젝트를 생성하고 필요한 패키지를 설치합니다. 1️⃣ FastAPI 프로젝트 디렉터리 생성mkdir fastapi-vector-searchcd fastapi-vector-search 2️⃣ Python 가상환경 설정 (선택)python3 -m venv venvsource venv/bin/activate # macOS/Linuxvenv\..

Data Engineering/Data Infra & Process 2025.03.07

1 ··· 48 49 50 51 52 53 54 ··· 59

YG Tech Blog

A blog about IT, covering topics from cloud computing and DevOps to Kubernetes and system architecture. Sharing insights, solutions, and best practices for modern IT professionals

kubernetes, 서비스_운영, Python, Minio, Security, 파이썬, statefulset, 서비스메시, YAML, gitops, Istio, 쿠버네티스, RAG, DevOps, DaemonSet, CI/CD, argocd, langchain, Cilium, k8s,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

분류 전체보기 581

티스토리툴바