docs(wiki): Finalized P-Reinforce v3.0 wikification of all 118 out_wiki assets
This commit is contained in:
@@ -0,0 +1,39 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-DFWK-001
|
||||
category: Unified
|
||||
confidence_score: 1.00
|
||||
tags: [auto-reinforced, vllm, tensorrt-llm, ollama, serving, inference-engine]
|
||||
last_reinforced: 2026-05-04
|
||||
---
|
||||
|
||||
# [[Deployment Frameworks|Deployment Frameworks]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "최신 AI 기술의 실전 배치 사령부: 연구 단계의 모델을 실제 서비스가 가능한 수준으로 가속하고, 수천 명의 동시 접속자를 감당할 수 있도록 인프라와 소프트웨어를 연결하는 고성능 추론 엔진."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
다양한 하드웨어 환경에서 LLM을 효율적으로 구동하고 서빙하기 위한 최적화된 프레임워크들입니다.
|
||||
|
||||
1. **[[vLLM|vLLM]]**:
|
||||
* **강점**: [[PagedAttention|PagedAttention]] 기술의 선구자로, 메모리 효율성과 처리량(Throughput)이 매우 뛰어납니다. 오픈소스 커뮤니티에서 가장 널리 사용됩니다.
|
||||
* **적합**: 범용적인 LLM 서빙, 다중 사용자 요청 처리.
|
||||
2. **TensorRT-LLM (NVIDIA)**:
|
||||
* **강점**: NVIDIA 하드웨어에 최적화된 저수준 가속 라이브러리입니다. C++ 기반의 강력한 성능과 고도의 커널 최적화를 제공합니다.
|
||||
* **적합**: 엔터프라이즈 급 고성능 서비스, NVIDIA 전용 클라우드 인프라.
|
||||
3. **Ollama**:
|
||||
* **강점**: 복잡한 설정 없이 로컬 PC(macOS, Linux, Windows)에서 LLM을 즉시 실행할 수 있게 해주는 사용자 친화적 도구입니다.
|
||||
* **적합**: 로컬 개발, 개인용 AI 어시스턴트, 경량 테스트 환경.
|
||||
4. **TGI (Text Generation Inference)**:
|
||||
* **강점**: Hugging Face에서 개발한 프로덕션용 추론 엔진으로, 안정성과 다양한 모델 지원이 특징입니다.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
* **유연성 vs 성능**: Ollama는 사용하기 매우 쉽지만 미세한 튜닝이 어렵고, TensorRT-LLM은 성능은 최강이지만 빌드 과정과 설정이 매우 복잡합니다.
|
||||
* **하드웨어 종속성**: TensorRT-LLM은 NVIDIA GPU에서만 작동하며, vLLM은 AMD GPU 지원을 확장 중이지만 여전히 NVIDIA 최적화가 주를 이룹니다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
* **핵심 기술**: [[PagedAttention|PagedAttention]], [[Continuous Batching|Continuous Batching]], [[Quantization|Quantization]]
|
||||
* **관련 인프라**: [[GPU Infrastructure|GPU Infrastructure]], [[Docker|Docker]]
|
||||
* **프로젝트 적용**: 로컬 개발용 에이전트([[Ollama|Ollama]]), 고성능 RAG 서빙 엔진([[vLLM|vLLM]])
|
||||
|
||||
---
|
||||
*Last updated: 2026-05-04*
|
||||
Reference in New Issue
Block a user