--- id: [[P-Reinforce|P-Reinforce]]-AUTO-IFOP-001 category: Unified confidence_score: 1.00 tags: [auto-reinforced, inference-optimization, speculative-decoding, continuous-batching, throughput] last_reinforced: 2026-05-04 --- # [[LLM Inference Optimization|LLM Inference Optimization]] ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "λŒ€κΈ° μ‹œκ°„κ³Όμ˜ μ „μŸ: λͺ¨λΈ μ•„ν‚€ν…μ²˜, 컀널 μ—°μ‚°, 배치 μ „λž΅ λ“± λͺ¨λ“  계측을 μ₯μ–΄μ§œλ‚΄μ–΄ μ‚¬μš©μžμ—κ²ŒλŠ” 더 λΉ λ₯Έ 응닡(Low Latency)을, μ„œλ²„ μš΄μ˜μžμ—κ²ŒλŠ” 더 λ§Žμ€ μ²˜λ¦¬λŸ‰(High Throughput)을 μ œκ³΅ν•˜λŠ” 기술적 λ§ˆλ²•." ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) μ‹€μ œ μ„œλΉ„μŠ€ ν™˜κ²½μ—μ„œ LLM의 응닡 속도λ₯Ό 높이고 운영 λΉ„μš©μ„ μ ˆκ°ν•˜κΈ° μœ„ν•œ 쒅합적인 μ΅œμ ν™” κΈ°λ²•λ“€μž…λ‹ˆλ‹€. 1. **Speculative Decoding (μΆ”μΈ‘ 기반 λ””μ½”λ”©)**: * **원리**: μž‘κ³  λΉ λ₯Έ λͺ¨λΈ(Draft Model)이 미리 μ—¬λŸ¬ 토큰을 μ˜ˆμΈ‘ν•˜κ³ , 큰 λͺ¨λΈ(Target Model)이 이λ₯Ό ν•œκΊΌλ²ˆμ— κ²€μ¦ν•©λ‹ˆλ‹€. * **효과**: μ •ν™•λ„λŠ” κ·ΈλŒ€λ‘œ μœ μ§€ν•˜λ©΄μ„œ 생성 속도λ₯Ό 2~3λ°° 이상 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€. 2. **Continuous Batching (연속 배치)**: * **원리**: λͺ¨λ“  μš”μ²­μ΄ 끝날 λ•ŒκΉŒμ§€ κΈ°λ‹€λ¦¬λŠ” 것이 μ•„λ‹ˆλΌ, 각 μš”μ²­μ˜ 토큰 생성이 λλ‚˜λŠ” μ¦‰μ‹œ μƒˆλ‘œμš΄ μš”μ²­μ„ λ°°μΉ˜μ— νˆ¬μž…ν•©λ‹ˆλ‹€. * **의의**: GPU의 유휴 μ‹œκ°„μ„ μ—†μ• κ³  전체 μ‹œμŠ€ν…œμ˜ μ²˜λ¦¬λŸ‰(Throughput)을 수 λ°° 이상 λ†’μž…λ‹ˆλ‹€. 3. **컀널 μ΅œμ ν™” (Kernel Optimization)**: * **FlashAttention**: λ©”λͺ¨λ¦¬ 읽기/μ“°κΈ°λ₯Ό 쀄여 μ–΄ν…μ…˜ 연산을 κ°€μ†ν•©λ‹ˆλ‹€. * **PagedAttention**: λ©”λͺ¨λ¦¬ λ‹¨νŽΈν™”λ₯Ό μ œκ±°ν•˜μ—¬ KV μΊμ‹œ ν™œμš©λ₯ μ„ κ·ΉλŒ€ν™”ν•©λ‹ˆλ‹€. 4. **Inference-time Compute**: * μΆ”λ‘  λͺ¨λΈ([[Reasoning Models|Reasoning Models]])의 경우, 더 λ§Žμ€ 사고 과정을 거치게 ν•˜μ—¬ λ‹΅λ³€μ˜ ν’ˆμ§ˆμ„ λ†’μ΄λŠ” λŒ€μ‹  속도λ₯Ό μ ˆμΆ©ν•˜λŠ” μ΅œμ‹  νŠΈλ Œλ“œμž…λ‹ˆλ‹€. ## βš–οΈ Trade-offs & Caveats * **Latency vs Throughput**: κ°œλ³„ μš”μ²­μ˜ 속도λ₯Ό λ†’μ΄λŠ” 기술(Speculative Decoding)κ³Ό μ‹œμŠ€ν…œ μ „μ²΄μ˜ 양을 λŠ˜λ¦¬λŠ” 기술(Batching) μ‚¬μ΄μ—λŠ” ν•˜λ“œμ›¨μ–΄ μžμ› λΆ„λ°°μ˜ νŠΈλ ˆμ΄λ“œμ˜€ν”„κ°€ μ‘΄μž¬ν•©λ‹ˆλ‹€. * **μΆ”κ°€ λ©”λͺ¨λ¦¬ μ†Œλͺ¨**: Speculative Decoding을 μœ„ν•΄ 보쑰 λͺ¨λΈμ„ μΆ”κ°€λ‘œ λ©”λͺ¨λ¦¬μ— μ˜¬λ €μ•Ό ν•˜λ―€λ‘œ VRAM μ—¬μœ κ°€ ν•„μš”ν•©λ‹ˆλ‹€. ## πŸ”— 지식 μ—°κ²° (Graph) * **핡심 기술**: [[Key-Value (KV) Cache|KV Cache]], [[Flash Attention|Flash Attention]], [[Model Compression & Quantization|Model Compression & Quantization]] * **ν”„λ ˆμž„μ›Œν¬**: [[vLLM|vLLM]], [[TensorRT-LLM|TensorRT-LLM]], [[Ollama|Ollama]] --- *Last updated: 2026-05-04*