docs(wiki): Finalized P-Reinforce v3.0 wikification of all 118 out_wiki assets

2026-05-04 13:33:35 +09:00
parent 772d3e11e0
commit 972cd84dba
28 changed files with 1054 additions and 0 deletions
@@ -0,0 +1,38 @@
+---
+id: [[P-Reinforce|P-Reinforce]]-AUTO-CHKP-001
+category: Unified
+confidence_score: 1.00
+tags: [auto-reinforced, chunking, data-preprocessing, rag-optimization, context-window]
+last_reinforced: 2026-05-04
+---
+
+# [[Chunking & Pre-processing|Chunking & Pre-processing]]
+
+## 📌 한 줄 통찰 (The Karpathy Summary)
+> "지식의 조각내기: 방대한 문서를 모델이 소화하기 가장 적절한 크기로 나누고, 맥락이 끊기지 않도록 정교하게 연결하여 RAG의 검색 품질을 결정짓는 보이지 않는 기초 공사."
+
+## 📖 구조화된 지식 (Synthesized Content)
+청킹(Chunking)은 대규모 문서를 검색과 추론에 용이하도록 작은 단위로 분할하는 과정입니다.
+
+1.  **청킹 전략**:
+    *   **Fixed-size Chunking**: 고정된 글자 수나 토큰 수로 나눕니다. 빠르지만 문장 중간이 잘리는 등 맥락 파괴 위험이 큽니다.
+    *   **Recursive Character Chunking**: 문단, 문장, 단어 단위로 우선순위를 두어 논리적 구조를 유지하며 나눕니다.
+    *   **Semantic Chunking**: 문장 간의 의미적 유사도를 측정하여, 주제가 바뀌는 지점에서 문서를 나눕니다.
+    *   **Agentic Chunking**: 에이전트가 문서를 읽고 의미 단위를 판단하여 최적의 지점에서 분할합니다.
+2.  **전처리 (Pre-processing)**:
+    *   **Cleaning**: 불필요한 특수문자, HTML 태그, 중복 텍스트를 제거합니다.
+    *   **Metadata 주입**: 각 청크에 제목, 요약, 출처, 관련 키워드 등을 태깅하여 검색 효율을 높입니다.
+3.  **Overlap (중첩)**:
+    *   청크와 청크 사이에 일정 부분을 겹치게 하여(예: 10% 중첩), 잘린 문장의 맥락이 양쪽 청크 모두에 유지되도록 합니다.
+
+## ⚖️ Trade-offs & Caveats
+*   **청크 크기 딜레마**: 너무 작으면 맥락이 부족하고(Lack of context), 너무 크면 검색 결과에 노이즈가 많아지며 모델의 컨텍스트 윈도우를 낭비하게 됩니다.
+*   **연산 비용**: Semantic Chunking이나 Agentic Chunking은 모델 호출이 필요하므로 처리 비용과 시간이 증가합니다.
+
+## 🔗 지식 연결 (Graph)
+*   **상위 시스템**: [[Retrieval-Augmented Generation (RAG)|Retrieval-Augmented Generation (RAG)]]
+*   **하위 시스템**: [[Vector Databases & Search|Vector Databases & Search]], [[Embedding Models & MRL|Embedding Models & MRL]]
+*   **연관 현상**: [[Lost in the middle|Lost in the middle]]
+
+---
+*Last updated: 2026-05-04*