Files
2nd/10_Wiki/Topics/AI_and_ML/RAG.md
T

72 lines
5.7 KiB
Markdown

---
category: Unified
tags: [auto-consolidated, technical-documentation]
title: [[RAG (검색 증강 생성)|RAG (검색 증강 생성)]]
last_updated: 2026-05-02
---
# [[RAG (검색 증강 생성)|RAG (검색 증강 생성)]]
## 📌 Brief Summary
> "오픈 북 시험을 치는 AI: 모든 정보를 다 외우게 시키는 대신, 질문을 받으면 관련된 문서를 실시간으로 찾아 읽고 답변하게 하여 할루시네이션(환각)을 획기적으로 줄이는 기술."
---
> RAG는 AI 모델의 정보 생성 전 사실적 근거를 외부 데이터에서 검색하여 주입함으로써 환각을 억제하며, 현대 에이전틱 시스템에서는 모델이 자율적으로 도구를 호출하여 필요한 정보를 점진적으로 확보하는 '능동적 지식 확장' 전략으로 진화했다.
## 📖 Core Content
RAG(Retrieval-Augmented Generation)는 사전에 학습된 언어 모델(LLM)에 외부의 최신 데이터나 전문 지식을 실시간으로 연결하여 답변의 정확성을 높이는 프레임워크입니다.
1. **작동 프로세스**:
* **Retrieval (검색)**: 유저의 질문과 가장 관련성 높은 지식 조각들을 벡터 데이터베이스 등에서 추출.
* **Augmentation (증강)**: 추출된 문서를 질문과 섞어서 LLM에게 '참고할 배경 지식'으로 제공.
* **Generation (생성)**: LLM이 제공된 정보를 바탕으로 근거 있는 답변 생성.
2. **핵심 이점**:
* **최신성 확보**: 모델을 다시 학습([[Fine-tuning|Fine-tuning]])시키지 않고도 어제 일어난 뉴스나 사내 최신 문서를 기반으로 답변 가능.
* **환각 증상 감소**: "내가 아는 바에 따르면"이 아니라 "제시된 문서에 따르면" 답변하므로 오류가 눈에 띄게 줄어듦.
* **출처 제시**: 답변의 근거가 된 문서 링크나 인용구를 함께 제공하여 신뢰성 확보.
3. **한계점**:
* 검색 단계에서 잘못된 문서를 가져오면(IR Failure) 답변도 망가짐. 이를 위해 검색 성능 최적화가 필수적임.
---
### 1. 에이전틱 RAG (Agentic RAG)의 부상
- **수동적 검색에서 자율 호출로**: 단순히 사용자 쿼리 시점에 문서를 일괄 주입하는 방식에서 벗어나, 에이전트가 추론 과정 중 필요 시 검색 도구(Keyword, Semantic, SQL 등)를 직접 호출하여 정보를 가져온다.
- **점진적 컨텍스트 보강**: 에이전트는 각 단계에서 필요한 최소한의 정보만 가져옴으로써 인지 부하를 줄이고 추론의 정확도를 높인다.
### 2. 검색 증강 컨텍스트 관리
- **장기 메모리 구현**: 에이전트의 상호작용 기록 전체를 저장하고, 현재 작업과 연관된 하위 집합(Subset)만을 검색해 컨텍스트 윈도우에 주입함으로써 장기 실행 작업의 일관성을 유지한다.
- **압축 및 추출**: Haystack 등 프레임워크를 통해 검색된 정보의 압축 및 핵심 추출 과정을 거쳐 모델에 전달한다.
### 3. GraphRAG: 지식 그래프와의 결합
- **관계 기반 추론**: 벡터 검색의 한계인 다단계(Multi-hop) 질문이나 전체적인 요약 문제를 해결하기 위해, 문서 간의 관계를 매핑한 지식 그래프와 결합하여 고도화된 의미론적 회상을 구현한다.
### 4. MCP와의 상호작용
- **지식 검색 vs 작업 실행**: RAG가 정보의 '수동적/능동적 검색'을 통한 사실성 확보에 주력한다면, MCP는 에이전트가 외부 시스템에서 작업을 '실행'하고 소통하는 표준을 제공하여 상호 보완한다.
## ⚖️ Trade-offs & Caveats
- **과거 데이터와의 충돌**: 초기 LLM은 '외운 것'으로만 답하게 하려 했으나, 정보의 방대함과 변화 속도를 감당할 수 없어 현대 기업용 AI 구축의 표준은 'RAG-First' 정책으로 완전히 전환됨.
- **정책 변화(RL Update)**: 민감한 사내 문서가 RAG 과정에서 외부망(Public LLM API)으로 유출될 위험이 제기됨에 따라, '로컬 벡터 스토어'와 '격리된 LLM 연계'를 강제하는 엔터프라이즈 AI 보안 정책이 강화됨.
---
- **지연 시간 오버헤드**: 매 단계 검색 쿼리가 추가됨에 따라 전체 실행 시간이 선형적으로 증가하며, 이는 하네스 차원의 인덱스 예열 및 캐싱으로 최적화해야 한다.
- **검색 게임화 (Adversarial RAG)**: 외부 데이터에 조작된 유사 콘텐츠가 섞여 있을 경우 에이전트가 악의적 지시문을 최우선으로 검색할 위험이 있으며, 출처 기반 가중치 부여가 필수적이다.
- **긴 컨텍스트 모델과의 경합**: 초장기 컨텍스트 모델이 등장함에 따라 모든 데이터를 직접 주입하는 방식과 RAG 검색 방식 사이의 비용-성능 균형점이 변화하고 있다.
## 🔗 Knowledge Connections
- Foundational Models, [[SFT (Supervised Fine-Tuning)|SFT (Supervised Fine-Tuning)]], Vector Semantics, Information Extraction (IE), Semantic Grounding Provenance
- **Modern Tech/Tools**: Pinecone, Milvus, [[LlamaIndex|LlamaIndex]], LangChain.
---
---
- **Parent**: 10_Wiki/Topics/AI
- **Related**: [[Context Engineering|Context Engineering]], Agentic Search, [[GraphRAG (그래프 기반 검색 증강 생성)|GraphRAG]], [[Model Context Protocol (MCP)|Model Context Protocol (MCP)]]
- **Raw Source**: 00_Raw/RAG (Retrieval-Augmented Generation)
## 💻 GitHub 동기화 자동화 워크플로우
1. Stage: git add .
2. Commit: `git commit -m "[P-Reinforce] Wikify RAG (Retrieval-Augmented Generation)"`
3. Push: `git push origin main`