멀티컬렉션 2

[LangChain RAG 구축 시리즈 Ep.26] 🧩 멀티 테이블 구조에 맞춘 자동 컬렉션 선택 및 태깅 전략

RAG 시스템이 다양한 Iceberg 테이블을 다루게 되면,단일 벡터 컬렉션에 모든 문서를 저장하는 방식은 검색 정확도와 성능의 한계에 부딪히게 됩니다.예를 들어, products, orders, customers와 같은 테이블이 각각 존재한다면,각 테이블의 문서를 분리 저장하고 질문에 따라 적절한 컬렉션을 자동으로 선택해야 합니다.그래서 이 글에서는:✅ 사용자 질문에서 테이블명을 자동으로 추출하고✅ 해당 테이블에 맞는 Chroma 컬렉션을 자동으로 선택하여✅ 정확하고 빠른 검색이 가능한 RAG 시스템을 구현합니다.이 전략은 문서 수가 많거나 테이블이 10개 이상인 데이터 플랫폼에서 매우 유용합니다.🎯 목표사용자 질문에서 Iceberg 테이블명을 추출하는 로직 구현테이블별 벡터 컬렉션을 자동으로 선택하..

[LangChain RAG 구축 시리즈 Ep.21] 🧬 멀티 문서 및 멀티 컬렉션 처리 전략 설계하기

이 글에서는 여러 Iceberg 테이블 정보를 다루는 상황을 가정하여멀티 문서, 멀티 컬렉션, 문서 메타데이터 기반 필터링 전략을 구성해봅니다.모든 코드는 초보자도 이해할 수 있도록 주석을 보강했습니다.🎯 목표여러 문서를 벡터로 임베딩하여 저장하는 방법 학습문서마다 메타데이터를 지정하여 검색 시 필터링 가능하도록 구성테이블별 컬렉션으로 분리하여 관리하는 구조 설계🧪 예시 1: 멀티 문서 단일 컬렉션 구성하기# src/embed_documents.pyfrom langchain.vectorstores import Chroma # ChromaDB를 위한 모듈from langchain.embeddings import OpenAIEmbeddings # Open..

728x90