2.5 KiB
2.5 KiB
id: P-Reinforce-AUTO-CHKP-001 category: Unified confidence_score: 1.00 tags: [auto-reinforced, chunking, data-preprocessing, rag-optimization, context-window] last_reinforced: 2026-05-04
Chunking & Pre-processing
📌 한 줄 통찰 (The Karpathy Summary)
"지식의 조각내기: 방대한 문서를 모델이 소화하기 가장 적절한 크기로 나누고, 맥락이 끊기지 않도록 정교하게 연결하여 RAG의 검색 품질을 결정짓는 보이지 않는 기초 공사."
📖 구조화된 지식 (Synthesized Content)
청킹(Chunking)은 대규모 문서를 검색과 추론에 용이하도록 작은 단위로 분할하는 과정입니다.
- 청킹 전략:
- Fixed-size Chunking: 고정된 글자 수나 토큰 수로 나눕니다. 빠르지만 문장 중간이 잘리는 등 맥락 파괴 위험이 큽니다.
- Recursive Character Chunking: 문단, 문장, 단어 단위로 우선순위를 두어 논리적 구조를 유지하며 나눕니다.
- Semantic Chunking: 문장 간의 의미적 유사도를 측정하여, 주제가 바뀌는 지점에서 문서를 나눕니다.
- Agentic Chunking: 에이전트가 문서를 읽고 의미 단위를 판단하여 최적의 지점에서 분할합니다.
- 전처리 (Pre-processing):
- Cleaning: 불필요한 특수문자, HTML 태그, 중복 텍스트를 제거합니다.
- Metadata 주입: 각 청크에 제목, 요약, 출처, 관련 키워드 등을 태깅하여 검색 효율을 높입니다.
- Overlap (중첩):
- 청크와 청크 사이에 일정 부분을 겹치게 하여(예: 10% 중첩), 잘린 문장의 맥락이 양쪽 청크 모두에 유지되도록 합니다.
⚖️ Trade-offs & Caveats
- 청크 크기 딜레마: 너무 작으면 맥락이 부족하고(Lack of context), 너무 크면 검색 결과에 노이즈가 많아지며 모델의 컨텍스트 윈도우를 낭비하게 됩니다.
- 연산 비용: Semantic Chunking이나 Agentic Chunking은 모델 호출이 필요하므로 처리 비용과 시간이 증가합니다.
🔗 지식 연결 (Graph)
- 상위 시스템: Retrieval-Augmented Generation (RAG)
- 하위 시스템: Vector Databases & Search, Embedding Models & MRL
- 연관 현상: Lost in the middle
Last updated: 2026-05-04