---
id: [[P-Reinforce|P-Reinforce]]-AUTO-DFWK-001
category: Unified
confidence_score: 1.00
tags: [auto-reinforced, vllm, tensorrt-llm, ollama, serving, inference-engine]
last_reinforced: 2026-05-04
---

# [[Deployment Frameworks|Deployment Frameworks]]

## 📌 한 줄 통찰 (The Karpathy Summary)
> "최신 AI 기술의 실전 배치 사령부: 연구 단계의 모델을 실제 서비스가 가능한 수준으로 가속하고, 수천 명의 동시 접속자를 감당할 수 있도록 인프라와 소프트웨어를 연결하는 고성능 추론 엔진."

## 📖 구조화된 지식 (Synthesized Content)
다양한 하드웨어 환경에서 LLM을 효율적으로 구동하고 서빙하기 위한 최적화된 프레임워크들입니다.

1.  **[[vLLM|vLLM]]**:
    *   **강점**: [[PagedAttention|PagedAttention]] 기술의 선구자로, 메모리 효율성과 처리량(Throughput)이 매우 뛰어납니다. 오픈소스 커뮤니티에서 가장 널리 사용됩니다.
    *   **적합**: 범용적인 LLM 서빙, 다중 사용자 요청 처리.
2.  **TensorRT-LLM (NVIDIA)**:
    *   **강점**: NVIDIA 하드웨어에 최적화된 저수준 가속 라이브러리입니다. C++ 기반의 강력한 성능과 고도의 커널 최적화를 제공합니다.
    *   **적합**: 엔터프라이즈 급 고성능 서비스, NVIDIA 전용 클라우드 인프라.
3.  **Ollama**:
    *   **강점**: 복잡한 설정 없이 로컬 PC(macOS, Linux, Windows)에서 LLM을 즉시 실행할 수 있게 해주는 사용자 친화적 도구입니다.
    *   **적합**: 로컬 개발, 개인용 AI 어시스턴트, 경량 테스트 환경.
4.  **TGI (Text Generation Inference)**:
    *   **강점**: Hugging Face에서 개발한 프로덕션용 추론 엔진으로, 안정성과 다양한 모델 지원이 특징입니다.

## ⚖️ Trade-offs & Caveats
*   **유연성 vs 성능**: Ollama는 사용하기 매우 쉽지만 미세한 튜닝이 어렵고, TensorRT-LLM은 성능은 최강이지만 빌드 과정과 설정이 매우 복잡합니다.
*   **하드웨어 종속성**: TensorRT-LLM은 NVIDIA GPU에서만 작동하며, vLLM은 AMD GPU 지원을 확장 중이지만 여전히 NVIDIA 최적화가 주를 이룹니다.

## 🔗 지식 연결 (Graph)
*   **핵심 기술**: [[PagedAttention|PagedAttention]], [[Continuous Batching|Continuous Batching]], [[Quantization|Quantization]]
*   **관련 인프라**: [[GPU Infrastructure|GPU Infrastructure]], [[Docker|Docker]]
*   **프로젝트 적용**: 로컬 개발용 에이전트([[Ollama|Ollama]]), 고성능 RAG 서빙 엔진([[vLLM|vLLM]])

---
*Last updated: 2026-05-04*