docs(wiki): Finalized P-Reinforce v3.0 wikification of all 118 out_wiki assets

2026-05-04 13:33:35 +09:00
parent 772d3e11e0
commit 972cd84dba
28 changed files with 1054 additions and 0 deletions
@@ -0,0 +1,39 @@
+---
+id: [[P-Reinforce|P-Reinforce]]-AUTO-DFWK-001
+category: Unified
+confidence_score: 1.00
+tags: [auto-reinforced, vllm, tensorrt-llm, ollama, serving, inference-engine]
+last_reinforced: 2026-05-04
+---
+
+# [[Deployment Frameworks|Deployment Frameworks]]
+
+## 📌 한 줄 통찰 (The Karpathy Summary)
+> "최신 AI 기술의 실전 배치 사령부: 연구 단계의 모델을 실제 서비스가 가능한 수준으로 가속하고, 수천 명의 동시 접속자를 감당할 수 있도록 인프라와 소프트웨어를 연결하는 고성능 추론 엔진."
+
+## 📖 구조화된 지식 (Synthesized Content)
+다양한 하드웨어 환경에서 LLM을 효율적으로 구동하고 서빙하기 위한 최적화된 프레임워크들입니다.
+
+1.  **[[vLLM|vLLM]]**:
+    *   **강점**: [[PagedAttention|PagedAttention]] 기술의 선구자로, 메모리 효율성과 처리량(Throughput)이 매우 뛰어납니다. 오픈소스 커뮤니티에서 가장 널리 사용됩니다.
+    *   **적합**: 범용적인 LLM 서빙, 다중 사용자 요청 처리.
+2.  **TensorRT-LLM (NVIDIA)**:
+    *   **강점**: NVIDIA 하드웨어에 최적화된 저수준 가속 라이브러리입니다. C++ 기반의 강력한 성능과 고도의 커널 최적화를 제공합니다.
+    *   **적합**: 엔터프라이즈 급 고성능 서비스, NVIDIA 전용 클라우드 인프라.
+3.  **Ollama**:
+    *   **강점**: 복잡한 설정 없이 로컬 PC(macOS, Linux, Windows)에서 LLM을 즉시 실행할 수 있게 해주는 사용자 친화적 도구입니다.
+    *   **적합**: 로컬 개발, 개인용 AI 어시스턴트, 경량 테스트 환경.
+4.  **TGI (Text Generation Inference)**:
+    *   **강점**: Hugging Face에서 개발한 프로덕션용 추론 엔진으로, 안정성과 다양한 모델 지원이 특징입니다.
+
+## ⚖️ Trade-offs & Caveats
+*   **유연성 vs 성능**: Ollama는 사용하기 매우 쉽지만 미세한 튜닝이 어렵고, TensorRT-LLM은 성능은 최강이지만 빌드 과정과 설정이 매우 복잡합니다.
+*   **하드웨어 종속성**: TensorRT-LLM은 NVIDIA GPU에서만 작동하며, vLLM은 AMD GPU 지원을 확장 중이지만 여전히 NVIDIA 최적화가 주를 이룹니다.
+
+## 🔗 지식 연결 (Graph)
+*   **핵심 기술**: [[PagedAttention|PagedAttention]], [[Continuous Batching|Continuous Batching]], [[Quantization|Quantization]]
+*   **관련 인프라**: [[GPU Infrastructure|GPU Infrastructure]], [[Docker|Docker]]
+*   **프로젝트 적용**: 로컬 개발용 에이전트([[Ollama|Ollama]]), 고성능 RAG 서빙 엔진([[vLLM|vLLM]])
+
+---
+*Last updated: 2026-05-04*