id: P-Reinforce-AUTO-CHKP-001 category: Unified confidence_score: 1.00 tags: [auto-reinforced, chunking, data-preprocessing, rag-optimization, context-window] last_reinforced: 2026-05-04

Chunking & Pre-processing

"지식의 조각내기: 방대한 문서를 모델이 소화하기 가장 적절한 크기로 나누고, 맥락이 끊기지 않도록 정교하게 연결하여 RAG의 검색 품질을 결정짓는 보이지 않는 기초 공사."

청킹(Chunking)은 대규모 문서를 검색과 추론에 용이하도록 작은 단위로 분할하는 과정입니다.

청킹 전략:
- Fixed-size Chunking: 고정된 글자 수나 토큰 수로 나눕니다. 빠르지만 문장 중간이 잘리는 등 맥락 파괴 위험이 큽니다.
- Recursive Character Chunking: 문단, 문장, 단어 단위로 우선순위를 두어 논리적 구조를 유지하며 나눕니다.
- Semantic Chunking: 문장 간의 의미적 유사도를 측정하여, 주제가 바뀌는 지점에서 문서를 나눕니다.
- Agentic Chunking: 에이전트가 문서를 읽고 의미 단위를 판단하여 최적의 지점에서 분할합니다.
전처리 (Pre-processing):
- Cleaning: 불필요한 특수문자, HTML 태그, 중복 텍스트를 제거합니다.
- Metadata 주입: 각 청크에 제목, 요약, 출처, 관련 키워드 등을 태깅하여 검색 효율을 높입니다.
Overlap (중첩):
- 청크와 청크 사이에 일정 부분을 겹치게 하여(예: 10% 중첩), 잘린 문장의 맥락이 양쪽 청크 모두에 유지되도록 합니다.

청크 크기 딜레마: 너무 작으면 맥락이 부족하고(Lack of context), 너무 크면 검색 결과에 노이즈가 많아지며 모델의 컨텍스트 윈도우를 낭비하게 됩니다.
연산 비용: Semantic Chunking이나 Agentic Chunking은 모델 호출이 필요하므로 처리 비용과 시간이 증가합니다.

Last updated: 2026-05-04