json처리 2

[LangChain RAG 구축 시리즈 Ep.08] 🧠 OpenAI Embedding 실습: JSON을 임베딩해보기

이 글에서는 실제 Iceberg의 metadata.json 파일에서 필요한 정보를 추출하여,자연어 기반 문서로 가공한 뒤, OpenAI의 임베딩 모델을 활용해 벡터로 변환하는 과정을 실습합니다.🎯 목표metadata.json에서 테이블 정보를 추출사람이 이해할 수 있는 문장 형태로 재구성LangChain의 OpenAIEmbeddings로 벡터화향후 검색(Retriever)에서 활용 가능한 문서 벡터 생성🔍 Step 1. 예시 JSON 데이터 준비 (💬 상세 주석 포함){ "table-name": "products", // 테이블 이름 "schema": { "fields": [ // 테이블 컬럼 정의 목록 { "id": 1, "name": "product_id", "type": ..

[LangChain RAG 구축 시리즈 Ep.05] 🧩 왜 metadata.json을 문서처럼 다뤄야 할까?

이 글에서는 RAG 시스템에 Iceberg의 metadata.json을 입력으로 활용할 때,왜 이 구조화된 JSON 파일을 자연어 기반 문서처럼 가공해야 하는지, 그리고어떻게 가공해야 검색 성능이 좋아지는지를 실제 예시와 함께 알아보겠습니다.❓ JSON 그대로 임베딩하면 안 되나요?많은 분들이 처음엔 이렇게 생각할 수 있습니다:“metadata.json은 구조가 잘 되어 있는데, 그냥 통째로 벡터화하면 되는 거 아냐?”하지만 실제로는 그대로 벡터화하면 RAG 성능이 매우 떨어집니다.🧱 구조적 JSON → 의미 중심 텍스트로 바꿔야 하는 이유 문제 설명 ⚠️ 벡터가 정보의 핵심을 놓침“field-id”, “source-id” 같은 키워드가 의미를 흐림⚠️ LLM이 이해하기 어려움LLM은 자연어 문맥에 ..

728x90