37 lines
2.3 KiB
Markdown
37 lines
2.3 KiB
Markdown
---
|
|
id: [[P-Reinforce|P-Reinforce]]-AUTO-VLLM-001
|
|
category: Unified
|
|
confidence_score: 1.00
|
|
tags: [auto-reinforced, vllm, llm-serving, throughput-optimization, paged-attention]
|
|
last_reinforced: 2026-05-04
|
|
---
|
|
|
|
# [[vLLM|vLLM]]
|
|
|
|
## 📌 한 줄 통찰 (The Karpathy Summary)
|
|
> "서빙 성능의 게임 체인저: PagedAttention을 세계 최초로 도입하여, 기존 시스템 대비 10~20배 이상의 동시 처리량(Throughput)을 달성하며 LLM 실용 서비스 시대를 앞당긴 표준 추론 엔진."
|
|
|
|
## 📖 구조화된 지식 (Synthesized Content)
|
|
vLLM(Virtual Large Language Model)은 고성능 LLM 추론 및 서빙을 위해 설계된 오픈소스 라이브러리입니다. 메모리 효율성과 처리량 극대화에 초점을 맞추고 있습니다.
|
|
|
|
1. **핵심 기술**:
|
|
* **[[PagedAttention|PagedAttention]]**: 메모리 단편화 문제를 해결하여 KV 캐시 활용률을 획기적으로 높였습니다.
|
|
* **Continuous Batching**: 모든 요청이 끝날 때까지 기다리지 않고, 개별 토큰 생성이 완료될 때마다 새로운 요청을 배치에 끼워 넣어 GPU 가동률을 극대화합니다.
|
|
2. **주요 특징**:
|
|
* **높은 처리량**: Hugging Face Transformers나 Text Generation Inference(TGI) 대비 월등한 처리 성능을 보여줍니다.
|
|
* **범용성**: Llama, Mistral, Gemma 등 대부분의 최신 오픈소스 모델을 지원하며, OpenAI 호환 API를 제공하여 연동이 쉽습니다.
|
|
3. **의의**:
|
|
* 상용 수준의 LLM 서비스를 구축할 때 가장 먼저 고려되는 표준 프레임워크 중 하나입니다.
|
|
|
|
## ⚖️ Trade-offs & Caveats
|
|
* **VRAM 점유**: 성능을 위해 가용 VRAM의 대부분을 KV 캐시용으로 선점(Pre-allocation)하므로, 다른 프로세스와 GPU를 공유하기 어렵습니다.
|
|
* **TTFT vs Throughput**: 전체 처리량은 뛰어나지만, 극단적인 배치 상황에서는 첫 토큰 생성 시간(Time-to-First-Token)이 소폭 증가할 수 있습니다.
|
|
|
|
## 🔗 지식 연결 (Graph)
|
|
* **핵심 기반**: [[PagedAttention|PagedAttention]], [[Key-Value (KV) Cache|Key-Value (KV) Cache]]
|
|
* **경쟁/대안 기술**: [[TensorRT-LLM|TensorRT-LLM]], [[TGI|TGI]], [[Ollama|Ollama]]
|
|
* **최적화 기법**: [[Quantization|Quantization]], [[Speculative Decoding|Speculative Decoding]]
|
|
|
|
---
|
|
*Last updated: 2026-05-04*
|