docs(wiki): Finalized P-Reinforce v3.0 wikification of all 118 out_wiki assets
This commit is contained in:
@@ -0,0 +1,38 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-CHKP-001
|
||||
category: Unified
|
||||
confidence_score: 1.00
|
||||
tags: [auto-reinforced, chunking, data-preprocessing, rag-optimization, context-window]
|
||||
last_reinforced: 2026-05-04
|
||||
---
|
||||
|
||||
# [[Chunking & Pre-processing|Chunking & Pre-processing]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "지식의 조각내기: 방대한 문서를 모델이 소화하기 가장 적절한 크기로 나누고, 맥락이 끊기지 않도록 정교하게 연결하여 RAG의 검색 품질을 결정짓는 보이지 않는 기초 공사."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
청킹(Chunking)은 대규모 문서를 검색과 추론에 용이하도록 작은 단위로 분할하는 과정입니다.
|
||||
|
||||
1. **청킹 전략**:
|
||||
* **Fixed-size Chunking**: 고정된 글자 수나 토큰 수로 나눕니다. 빠르지만 문장 중간이 잘리는 등 맥락 파괴 위험이 큽니다.
|
||||
* **Recursive Character Chunking**: 문단, 문장, 단어 단위로 우선순위를 두어 논리적 구조를 유지하며 나눕니다.
|
||||
* **Semantic Chunking**: 문장 간의 의미적 유사도를 측정하여, 주제가 바뀌는 지점에서 문서를 나눕니다.
|
||||
* **Agentic Chunking**: 에이전트가 문서를 읽고 의미 단위를 판단하여 최적의 지점에서 분할합니다.
|
||||
2. **전처리 (Pre-processing)**:
|
||||
* **Cleaning**: 불필요한 특수문자, HTML 태그, 중복 텍스트를 제거합니다.
|
||||
* **Metadata 주입**: 각 청크에 제목, 요약, 출처, 관련 키워드 등을 태깅하여 검색 효율을 높입니다.
|
||||
3. **Overlap (중첩)**:
|
||||
* 청크와 청크 사이에 일정 부분을 겹치게 하여(예: 10% 중첩), 잘린 문장의 맥락이 양쪽 청크 모두에 유지되도록 합니다.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
* **청크 크기 딜레마**: 너무 작으면 맥락이 부족하고(Lack of context), 너무 크면 검색 결과에 노이즈가 많아지며 모델의 컨텍스트 윈도우를 낭비하게 됩니다.
|
||||
* **연산 비용**: Semantic Chunking이나 Agentic Chunking은 모델 호출이 필요하므로 처리 비용과 시간이 증가합니다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
* **상위 시스템**: [[Retrieval-Augmented Generation (RAG)|Retrieval-Augmented Generation (RAG)]]
|
||||
* **하위 시스템**: [[Vector Databases & Search|Vector Databases & Search]], [[Embedding Models & MRL|Embedding Models & MRL]]
|
||||
* **연관 현상**: [[Lost in the middle|Lost in the middle]]
|
||||
|
||||
---
|
||||
*Last updated: 2026-05-04*
|
||||
Reference in New Issue
Block a user