2nd/10_Wiki/Topics/AI_and_ML/vLLM.md

---
id: [[P-Reinforce|P-Reinforce]]-AUTO-VLLM-001
category: Unified
confidence_score: 1.00
tags: [auto-reinforced, vllm, llm-serving, throughput-optimization, paged-attention]
last_reinforced: 2026-05-04
---

# [[vLLM|vLLM]]

## 📌 한 줄 통찰 (The Karpathy Summary)
> "서빙 성능의 게임 체인저: PagedAttention을 세계 최초로 도입하여, 기존 시스템 대비 10~20배 이상의 동시 처리량(Throughput)을 달성하며 LLM 실용 서비스 시대를 앞당긴 표준 추론 엔진."

## 📖 구조화된 지식 (Synthesized Content)
vLLM(Virtual Large Language Model)은 고성능 LLM 추론 및 서빙을 위해 설계된 오픈소스 라이브러리입니다. 메모리 효율성과 처리량 극대화에 초점을 맞추고 있습니다.

1.  **핵심 기술**:
    *   **[[PagedAttention|PagedAttention]]**: 메모리 단편화 문제를 해결하여 KV 캐시 활용률을 획기적으로 높였습니다.
    *   **Continuous Batching**: 모든 요청이 끝날 때까지 기다리지 않고, 개별 토큰 생성이 완료될 때마다 새로운 요청을 배치에 끼워 넣어 GPU 가동률을 극대화합니다.
2.  **주요 특징**:
    *   **높은 처리량**: Hugging Face Transformers나 Text Generation Inference(TGI) 대비 월등한 처리 성능을 보여줍니다.
    *   **범용성**: Llama, Mistral, Gemma 등 대부분의 최신 오픈소스 모델을 지원하며, OpenAI 호환 API를 제공하여 연동이 쉽습니다.
3.  **의의**:
    *   상용 수준의 LLM 서비스를 구축할 때 가장 먼저 고려되는 표준 프레임워크 중 하나입니다.

## ⚖️ Trade-offs & Caveats
*   **VRAM 점유**: 성능을 위해 가용 VRAM의 대부분을 KV 캐시용으로 선점(Pre-allocation)하므로, 다른 프로세스와 GPU를 공유하기 어렵습니다.
*   **TTFT vs Throughput**: 전체 처리량은 뛰어나지만, 극단적인 배치 상황에서는 첫 토큰 생성 시간(Time-to-First-Token)이 소폭 증가할 수 있습니다.

## 🔗 지식 연결 (Graph)
*   **핵심 기반**: [[PagedAttention|PagedAttention]], [[Key-Value (KV) Cache|Key-Value (KV) Cache]]
*   **경쟁/대안 기술**: [[TensorRT-LLM|TensorRT-LLM]], [[TGI|TGI]], [[Ollama|Ollama]]
*   **최적화 기법**: [[Quantization|Quantization]], [[Speculative Decoding|Speculative Decoding]]

---
*Last updated: 2026-05-04*