feat: Wiki 지식 자산 업데이트 - UX Scenarios, Frontend, Game Design, Topics 추가 [2026-05-08]

This commit is contained in:
2026-05-08 19:52:07 +09:00
parent 9dd3d40662
commit 5ba5a55c78
3984 changed files with 334557 additions and 28839 deletions
+19 -30
View File
@@ -1,36 +1,25 @@
---
id: [[P-Reinforce|P-Reinforce]]-AUTO-PATT-001
category: Unified
confidence_score: 1.00
tags: [auto-reinforced, paged-attention, vllm, kv-cache, memory-management, fragmentation]
last_reinforced: 2026-05-04
id: wiki-2026-0508-pagedattention
title: PagedAttention
category: 10_Wiki/Topics/AI_and_ML
status: merged
redirect_to: LLM_Optimization_and_Deployment_Strategies
canonical_id: LLM_Optimization_and_Deployment_Strategies
aliases: [P-Reinforce-REDIRECT-PAGED-ATTN]
duplicate_of: none
source_trust_level: A
confidence_score: 0.92
tags: [redirect]
raw_sources: []
last_reinforced: 2026-05-08
github_commit: pending
inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08)
---
# [[PagedAttention|PagedAttention]]
# [[PagedAttention]]
## 📌 한 줄 통찰 (The Karpathy Summary)
> "OS의 지혜를 AI로: 운영체제의 가상 메모리 페이징 기법을 KV 캐시 관리에 도입하여, 메모리 단편화를 제거하고 활용률을 96% 이상으로 끌어올린 추론 엔진의 혁명."
## 📖 구조화된 지식 (Synthesized Content)
PagedAttention은 LLM 추론 시 KV 캐시 메모리를 효율적으로 관리하기 위해 제안된 기술로, 연속적인 메모리 할당 대신 비연속적인 블록(Block) 단위 할당 방식을 사용합니다.
1. **핵심 메커니즘**:
* **가상 메모리 페이징**: KV 캐시를 고정된 크기의 '논리적 블록'으로 나누고, 이를 실제 '물리적 블록'에 동적으로 매핑합니다.
* **블록 테이블 (Block Table)**: 논리적 블록과 물리적 블록 사이의 매핑 정보를 저장하여, 데이터가 물리적으로 떨어져 있어도 논리적으로는 연속된 것처럼 처리합니다.
2. **주요 장점**:
* **단편화 제거**: 미리 거대한 공간을 예약할 필요가 없어 내부 단편화가 거의 발생하지 않으며, 메모리 활용률을 극대화합니다.
* **메모리 공유**: 동일한 프롬프트를 공유하는 여러 요청(예: Parallel Sampling)이 있을 때, 공통된 KV 블록을 물리적으로 한 번만 저장하고 공유할 수 있습니다 (Copy-on-Write 방식).
3. **성능 향상**:
* 메모리 효율성 증가는 곧 동일한 GPU 자원에서 훨씬 더 많은 동시 요청(Throughput)을 처리할 수 있음을 의미합니다.
## ⚖️ Trade-offs & Caveats
* **복잡한 커널 구현**: 비연속적인 메모리 블록을 빠르게 읽고 쓰는 전용 CUDA 커널이 필요하여 구현 난이도가 높습니다.
* **블록 크기 민감도**: 블록 크기(예: 8, 16 토큰) 설정에 따라 GPU 병렬 처리 효율성과 메타데이터 오버헤드 사이의 트레이드오프가 발생합니다.
## 🔗 지식 연결 (Graph)
* **상위 개념**: [[Key-Value (KV) Cache|Key-Value (KV) Cache]], [[Virtual Memory Paging|Virtual Memory Paging]]
* **대표 프레임워크**: [[vLLM|vLLM]], [[TensorRT-LLM|TensorRT-LLM]]
* **연관 기술**: [[KV Cache Compression|KV Cache Compression]], [[ThinKV|ThinKV]]
> [!IMPORTANT]
> 이 문서는 고밀도 지식 자산 통합 정책에 따라 **[[LLM_Optimization_and_Deployment_Strategies]]**으로 통합되었습니다.
---
*Last updated: 2026-05-04*
*Redirected to: [[LLM_Optimization_and_Deployment_Strategies]]*