728x90
이 글에서는 RAG 시스템이 왜 필요한지를 LLM의 한계를 중심으로 살펴보겠습니다.
GPT와 같은 모델은 매우 똑똑해 보이지만, 알고 있는 정보에는 한계가 있습니다.
그리고 바로 이 한계를 극복하기 위한 해법이 RAG입니다.
❓ GPT는 정말 모든 걸 알고 있을까?
많은 분들이 GPT-4는 모든 걸 알고 있다고 생각합니다.
하지만 실제로는 훈련 당시 데이터까지만 알고 있으며,
그 이후에 생긴 지식은 모릅니다.
예를 들어…
🧪 질문: “2024년 12월에 발표된 Iceberg 최신 버전의 주요 기능은?”
🤖 GPT 응답: "죄송합니다. 제 지식은 2023년까지입니다."
즉, GPT는 현재 정보에 대해 답할 수 없습니다.
💥 LLM이 스스로 모르는 것
예시 | 설명 |
🔄 최신 테이블 구조 변경 | metadata.json 파일이 최신이지만, GPT는 모름 |
📚 사내 데이터 | 내부 문서, 정책, 테이블 구조 등은 GPT가 알 수 없음 |
🔒 보안 정보 | GPT는 민감한 정보나 인증된 사용자만 볼 수 있는 정보를 알 수 없음 |
🎯 그래서 왜 RAG가 필요한가?
이유 | 설명 |
📥 LLM에 외부 지식 전달 | 사전에 벡터로 변환한 문서 → 실시간 검색 후 LLM에 제공 |
📚 사내 문서 기반 응답 | 예: metadata.json을 통해 존재하는 Iceberg 테이블 목록 제공 |
💬 사용자 질문에 맞춘 정보 제공 | 질문마다 관련 문서만 골라서 LLM에게 알려줌 |
🔄 일반 GPT vs RAG 기반 GPT
항목 | 일반 GPT | RAG 기반 GPT |
데이터 최신성 | ❌ 제한됨 (2023년까지) | ✅ 최신 문서 기반 응답 가능 |
사내 문서 접근 | ❌ 불가능 | ✅ 가능 (내부 문서를 벡터화 후 검색) |
정확도 | 🤔 문맥 추측 위주 | ✅ 실제 문서 기반 응답 |
📌 Iceberg 예시로 보면?
사용자가 묻습니다:
“상품 관련 정보를 담고 있는 테이블이 뭐야?”
- GPT: “아마 products 같은 테이블일지도 몰라요?” (추측)
- ✅ RAG: metadata.json을 검색해 "table_products_2024"를 정확히 안내
📎 요약 및 핵심 정리
- GPT는 최신 정보나 사내 데이터에 접근할 수 없습니다.
- RAG는 이러한 한계를 극복하기 위해 문서 기반 검색 + 생성을 결합한 구조입니다.
- RAG가 있어야 정확하고 최신화된 지식 응답이 가능합니다.
728x90
'LLM & Generative AI > RAG in Practice' 카테고리의 다른 글
[LangChain RAG 구축 시리즈 Ep.05] 🧩 왜 metadata.json을 문서처럼 다뤄야 할까? (1) | 2025.04.05 |
---|---|
[LangChain RAG 구축 시리즈 Ep.04] ❄️ Iceberg란? 메타데이터 구조와 RAG 연결 (1) | 2025.04.05 |
[LangChain RAG 구축 시리즈 Ep.02] 📦 Embedding의 원리와 벡터의 의미 (1) | 2025.04.05 |
[LangChain RAG 구축 시리즈 Ep.01] 🔍 RAG를 구성하는 핵심 컴포넌트 4가지 (1) | 2025.04.05 |
Kubernetes 환경에서 ChromaDB 구축 및 Python 데이터 저장 테스트 (0) | 2025.02.27 |