id: P-Reinforce-AUTO-CWLC-001 category: Unified confidence_score: 1.00 tags: [auto-reinforced, context-window, long-context-llm, niah, ruler, infinite-context] last_reinforced: 2026-05-04

Context Window & Long-Context LLMs

"지능의 시야: 모델이 한 번에 보고 이해할 수 있는 정보의 양을 의미하며, 수천 토큰에서 수백만 토큰으로 확장되는 과정은 AI가 단순한 도구를 넘어 '전체 리포지토리'나 '책 수십 권'을 통째로 이해하는 전문가로 진화하는 과정."

컨텍스트 윈도우(Context Window)는 LLM이 한 번에 처리할 수 있는 최대 토큰 수를 의미하며, 이를 확장하는 것은 현대 AI 연구의 핵심 과제입니다.

발전 단계:
- 초기: 2,048 ~ 4,096 토큰 (짧은 대화 위주).
- 과기: 32,000 ~ 128,000 토큰 (긴 문서 분석 가능).
- 현재: 100만(1M) ~ 1,000만(10M) 토큰 이상 (전체 코드베이스, 수 시간의 영상 분석 가능).
평가 지표:
- Needle In A Haystack (NIAH): 거대한 정보(건초더미) 속에 숨겨진 작은 정보(바늘)를 모델이 얼마나 정확하게 찾아내는지 테스트합니다.
- RULER: 단순 검색을 넘어, 긴 문맥 속에서 복잡한 추론과 요약 능력을 종합적으로 평가하는 최신 벤치마크입니다.
한계 극복 기술:
- 아키텍처 최적화: Attention Mechanisms, Sparse Attention.
- 메모리 관리: Key-Value (KV) Cache 최적화 및 PagedAttention.
- 위치 인코딩 확장: Positional Embeddings (RoPE & Variants) 등을 통한 학습 범위를 넘어서는 컨텍스트 확장.

Lost in the middle: 컨텍스트가 길어질수록 모델이 앞부분과 뒷부분의 정보는 잘 기억하지만, 중간에 위치한 정보는 무시하거나 잊어버리는 현상이 발생합니다.
연산 비용 폭발: 어텐션 연산은 시퀀스 길이의 제곱(O(n^2))에 비례하므로, 컨텍스트가 2배 늘어나면 연산량과 메모리는 4배로 증가합니다.
정확도 하락: 컨텍스트 창은 크지만, 실제 내부 정보에 대한 이해도(Recall)가 떨어지는 '가짜 컨텍스트 확장' 모델을 경계해야 합니다.

기술적 기반: Positional Embeddings (RoPE & Variants), Attention Mechanisms
물리적 제약: KV Cache, GPU Infrastructure
해결 전략: Retrieval-Augmented Generation (RAG), Lost in the Middle & Context Rot

Last updated: 2026-05-04