자연어처리 2

[LangChain RAG 구축 시리즈 Ep.06] 📝 텍스트 vs 구조형 데이터: 어떻게 임베딩할까?

이 글에서는 자연어 텍스트와 구조형 JSON 데이터를 임베딩할 때어떻게 접근 방식이 달라야 하는지,그리고 각각 어떤 방식으로 가공해야 검색 성능을 극대화할 수 있는지를 실습과 함께 알아보겠습니다.🤖 임베딩은 텍스트 기반이다우리가 사용하는 임베딩 모델 대부분은텍스트의 의미를 숫자로 표현하는 것에 최적화돼 있습니다.즉, 단순한 숫자 나열이나 키-값 구조보다는사람이 이해할 수 있는 문장 구조를 더 잘 이해합니다.🔍 구조형 데이터 vs 자연어 텍스트 항목 구조형(JSON 등) 자연어 텍스트 예시{"name": "product", "type": "string"}"product라는 이름의 문자열 컬럼"임베딩 적합도❌ 낮음✅ 높음추천 처리 방식자연어로 가공 필요그대로 사용 가능🧪 실습: 같은 정보를 임베딩했..

[LangChain RAG 구축 시리즈 Ep.02] 📦 Embedding의 원리와 벡터의 의미

이 글에서는 RAG의 핵심 기술 중 하나인 **Embedding(임베딩)**의 개념을 설명하고,왜 우리가 문서를 벡터로 바꾸는지, 그것이 어떤 방식으로 검색에 활용되는지를 쉽게 풀어드립니다.🤔 임베딩이란 무엇인가요?“문장이나 단어를 숫자의 집합으로 바꾸는 것”언어 모델은 텍스트 그 자체를 이해하지 못합니다.따라서 우리가 사용하는 문장이나 단어를 숫자(벡터)로 바꿔줘야 컴퓨터가 비교하거나 검색할 수 있습니다.🎯 Embedding의 핵심 목적 목적 설명 🧠 의미를 담은 벡터 생성“상품 이름이 뭐야?” 와 “제품 명이 뭐지?”를 비슷한 벡터로 표현🔍 검색을 가능하게 함질문 벡터와 문서 벡터 간의 거리를 계산해 유사도 검색📦 LLM에 정보 전달“이 질문과 관련 있는 문서”를 찾아서 LLM에게 넘겨줌?..

728x90