2nd/10_Wiki/Topics/AI_and_ML/GraphRAG.md

---
id: [[P-Reinforce|P-Reinforce]]-AUTO-GRG-001
category: AI_and_ML
confidence_score: 1.00
tags: [auto-reinforced, graph-rag, knowledge-graph, rag, semantic-relationship, complex-reasoning]
last_reinforced: 2026-05-04
---

# [[GraphRAG|GraphRAG]]

## 📌 한 줄 통찰 (The Karpathy Summary)
> "정보의 지도를 그리는 검색: 문서를 단순한 텍스트 덩어리가 아닌 엔티티(Entity)와 관계(Relationship)의 네트워크로 재구성하여, 여러 문서에 걸쳐 있는 복잡한 맥락과 주제 단위의 질문에 완벽하게 답변하는 지식 그래프 기반 RAG."

## 📖 구조화된 지식 (Synthesized Content)
GraphRAG는 지식 그래프(Knowledge Graph)의 구조적 이점과 LLM의 생성 능력을 결합하여 평면적인 벡터 검색의 한계를 극복하는 차세대 RAG 아키텍처입니다.

1.  **동작 원리 (Mechanism)**:
    *   **그래프 추출 (Graph Extraction)**: LLM을 사용하여 텍스트 데이터에서 인물, 장소, 개념 등의 엔티티와 그들 사이의 관계를 추출합니다.
    *   **커뮤니티 요약 (Community Summarization)**: 거대한 그래프를 밀접하게 연결된 그룹(Community)으로 나누고, 각 그룹에 대한 요약을 미리 생성해둡니다.
    *   **전역 및 국소 검색**: 전체 지식의 개요를 묻는 질문(Global Query)에는 커뮤니티 요약을 활용하고, 특정 엔티티에 대한 질문(Local Query)에는 그래프 노드를 탐색합니다.

2.  **왜 GraphRAG인가?**:
    *   **다단계 추론 ([[Multi-hop Reasoning|Multi-hop]])**: 문서 A와 문서 C 사이의 연결 고리를 그래프 상에서 직접 추적할 수 있습니다.
    *   **주제적 통찰**: "이 전체 문서들의 핵심 주제가 뭐야?"와 같은 포괄적인 질문에 대해 벡터 검색보다 훨씬 우수한 답변을 제공합니다.

3.  **지식의 밀도**:
    *   파편화된 정보를 연결된 지식 체계로 승격시켜, 정보의 누락 없는 고밀도 컨텍스트를 LLM에 제공합니다.

## ⚖️ Trade-offs & Caveats
*   **고비용 전처리**: 지식 그래프를 구축하고 커뮤니티 요약을 생성하는 과정에서 일반 RAG 대비 3~5배 이상의 LLM 토큰 비용이 발생합니다.
*   **구축 지연 시간**: 방대한 양의 문서를 그래프로 인덱싱하는 데 상당한 시간이 소요됩니다.
*   **추출 노이즈**: 엔티티 인식 및 관계 정의 과정에서 AI가 잘못된 연결을 생성할 수 있으므로, 그래프 정제 로직이 필요합니다.

## 💻 실전 구현 코드 (Boilerplate)
`Microsoft GraphRAG` 라이브러리의 개념적 인덱싱 워크플로우 예시입니다.

```python
# GraphRAG 프로젝트 설정 및 인덱싱 (CLI 예시)
# 1. 초기화
# graphrag init --root ./my_knowledge_garden

# 2. 인덱싱 실행 (텍스트 -> 엔티티 추출 -> 그래프 구축)
# graphrag index --root ./my_knowledge_garden

# 3. 질의 실행 (Global/Local 쿼리 모드 선택 가능)
from graphrag.query.context_builder import GlobalContextBuilder
from graphrag.query.engine import GlobalSearch

# 개념적 파이썬 API 호출 예시
query_engine = GlobalSearch(
    context_builder=GlobalContextBuilder(graph_storage, community_reports),
    llm=ChatOpenAI(model="gpt-4-turbo")
)

response = query_engine.search("이 지식 기지의 주요 아키텍처적 특징들을 요약해줘.")
print(response.answer)
```

## 🔗 지식 연결 (Graph)
*   **기반 기술**: [[Knowledge Graph|Knowledge Graph]], [[Retrieval-Augmented Generation (RAG)|RAG]]
*   **고도화 기법**: [[Multi-hop Reasoning|Multi-hop Reasoning]], [[Entity Relationship Mapping|ER Mapping]]
*   **비교 개념**: [[Vector Search|Vector Search (Baseline)]], [[Adaptive RAG|Adaptive RAG]]

---
*Last updated: 2026-05-04*