--- id: wiki-2026-0508-kv-cache-compression title: KV Cache Compression category: 10_Wiki/Topics status: duplicate canonical_id: key-value-kv-cache duplicate_of: "[[Key-Value (KV) Cache]]" aliases: [] source_trust_level: A confidence_score: 0.9 verification_status: redirected tags: [duplicate, kv-cache, llm-inference, compression] last_reinforced: 2026-05-10 github_commit: pending --- # KV Cache Compression > **이 문서는 [[Key-Value (KV) Cache]] 의 중복본입니다.** Canonical 문서로 redirect. ## 핵심 요약 (specialized aspects) - KV Cache compression 기법 (quantization INT8/INT4, eviction H2O/StreamingLLM, sharing GQA/MQA, low-rank)은 canonical [[Key-Value (KV) Cache]] 문서의 "Compression" 섹션에 통합되어 있음. - Compression-specific 결정 표 (memory vs accuracy trade-off)는 canonical 참조. - 2026 기준 PagedAttention, vLLM의 KV reuse는 canonical에서 다룸. ## 🔗 Graph - 부모: [[Key-Value (KV) Cache]] (canonical) ## 🕓 변경 이력 | 날짜 | 변경 | |---|---| | 2026-05-08 | Phase 1 | | 2026-05-10 | 중복 처리 — canonical 문서로 redirect |