LLM & Generative AI/RAG in Practice

[LangChain RAG 구축 시리즈 Ep.03] 🧠 LLM은 어디까지 알고 있을까? 외부 지식의 필요성

ygtoken 2025. 4. 5. 19:28
728x90

이 글에서는 RAG 시스템이 왜 필요한지를 LLM의 한계를 중심으로 살펴보겠습니다.
GPT와 같은 모델은 매우 똑똑해 보이지만, 알고 있는 정보에는 한계가 있습니다.
그리고 바로 이 한계를 극복하기 위한 해법이 RAG입니다.


❓ GPT는 정말 모든 걸 알고 있을까?

많은 분들이 GPT-4는 모든 걸 알고 있다고 생각합니다.
하지만 실제로는 훈련 당시 데이터까지만 알고 있으며,
그 이후에 생긴 지식은 모릅니다.

예를 들어…

🧪 질문: “2024년 12월에 발표된 Iceberg 최신 버전의 주요 기능은?”  
🤖 GPT 응답: "죄송합니다. 제 지식은 2023년까지입니다."

즉, GPT는 현재 정보에 대해 답할 수 없습니다.


💥 LLM이 스스로 모르는 것

예시 설명
🔄 최신 테이블 구조 변경 metadata.json 파일이 최신이지만, GPT는 모름
📚 사내 데이터 내부 문서, 정책, 테이블 구조 등은 GPT가 알 수 없음
🔒 보안 정보 GPT는 민감한 정보나 인증된 사용자만 볼 수 있는 정보를 알 수 없음

🎯 그래서 왜 RAG가 필요한가?

이유  설명
📥 LLM에 외부 지식 전달 사전에 벡터로 변환한 문서 → 실시간 검색 후 LLM에 제공
📚 사내 문서 기반 응답 예: metadata.json을 통해 존재하는 Iceberg 테이블 목록 제공
💬 사용자 질문에 맞춘 정보 제공 질문마다 관련 문서만 골라서 LLM에게 알려줌

🔄 일반 GPT vs RAG 기반 GPT

항목 일반 GPT RAG 기반 GPT
데이터 최신성 ❌ 제한됨 (2023년까지) ✅ 최신 문서 기반 응답 가능
사내 문서 접근 ❌ 불가능 ✅ 가능 (내부 문서를 벡터화 후 검색)
정확도 🤔 문맥 추측 위주 ✅ 실제 문서 기반 응답

📌 Iceberg 예시로 보면?

사용자가 묻습니다:

“상품 관련 정보를 담고 있는 테이블이 뭐야?”
  • GPT: “아마 products 같은 테이블일지도 몰라요?” (추측)
  • ✅ RAG: metadata.json을 검색해 "table_products_2024"를 정확히 안내

📎 요약 및 핵심 정리

  • GPT는 최신 정보나 사내 데이터에 접근할 수 없습니다.
  • RAG는 이러한 한계를 극복하기 위해 문서 기반 검색 + 생성을 결합한 구조입니다.
  • RAG가 있어야 정확하고 최신화된 지식 응답이 가능합니다.

 

728x90