2nd/10_Wiki/Topics/AI_and_ML/LLM Inference Optimization.md

---
id: [[P-Reinforce|P-Reinforce]]-AUTO-IFOP-001
category: Unified
confidence_score: 1.00
tags: [auto-reinforced, inference-optimization, speculative-decoding, continuous-batching, throughput]
last_reinforced: 2026-05-04
---

# [[LLM Inference Optimization|LLM Inference Optimization]]

## 📌 한 줄 통찰 (The Karpathy Summary)
> "대기 시간과의 전쟁: 모델 아키텍처, 커널 연산, 배치 전략 등 모든 계층을 쥐어짜내어 사용자에게는 더 빠른 응답(Low Latency)을, 서버 운영자에게는 더 많은 처리량(High Throughput)을 제공하는 기술적 마법."

## 📖 구조화된 지식 (Synthesized Content)
실제 서비스 환경에서 LLM의 응답 속도를 높이고 운영 비용을 절감하기 위한 종합적인 최적화 기법들입니다.

1.  **Speculative Decoding (추측 기반 디코딩)**:
    *   **원리**: 작고 빠른 모델(Draft Model)이 미리 여러 토큰을 예측하고, 큰 모델(Target Model)이 이를 한꺼번에 검증합니다.
    *   **효과**: 정확도는 그대로 유지하면서 생성 속도를 2~3배 이상 향상시킵니다.
2.  **Continuous Batching (연속 배치)**:
    *   **원리**: 모든 요청이 끝날 때까지 기다리는 것이 아니라, 각 요청의 토큰 생성이 끝나는 즉시 새로운 요청을 배치에 투입합니다.
    *   **의의**: GPU의 유휴 시간을 없애고 전체 시스템의 처리량(Throughput)을 수 배 이상 높입니다.
3.  **커널 최적화 (Kernel Optimization)**:
    *   **FlashAttention**: 메모리 읽기/쓰기를 줄여 어텐션 연산을 가속합니다.
    *   **PagedAttention**: 메모리 단편화를 제거하여 KV 캐시 활용률을 극대화합니다.
4.  **Inference-time Compute**:
    *   추론 모델([[Reasoning Models|Reasoning Models]])의 경우, 더 많은 사고 과정을 거치게 하여 답변의 품질을 높이는 대신 속도를 절충하는 최신 트렌드입니다.

## ⚖️ Trade-offs & Caveats
*   **Latency vs Throughput**: 개별 요청의 속도를 높이는 기술(Speculative Decoding)과 시스템 전체의 양을 늘리는 기술(Batching) 사이에는 하드웨어 자원 분배의 트레이드오프가 존재합니다.
*   **추가 메모리 소모**: Speculative Decoding을 위해 보조 모델을 추가로 메모리에 올려야 하므로 VRAM 여유가 필요합니다.

## 🔗 지식 연결 (Graph)
*   **핵심 기술**: [[Key-Value (KV) Cache|KV Cache]], [[Flash Attention|Flash Attention]], [[Model Compression & Quantization|Model Compression & Quantization]]
*   **프레임워크**: [[vLLM|vLLM]], [[TensorRT-LLM|TensorRT-LLM]], [[Ollama|Ollama]]

---
*Last updated: 2026-05-04*