Files
2nd/10_Wiki/Topics/AI_and_ML/Deployment Frameworks.md
T

2.6 KiB


id: P-Reinforce-AUTO-DFWK-001 category: Unified confidence_score: 1.00 tags: [auto-reinforced, vllm, tensorrt-llm, ollama, serving, inference-engine] last_reinforced: 2026-05-04

Deployment Frameworks

📌 한 줄 통찰 (The Karpathy Summary)

"최신 AI 기술의 실전 배치 사령부: 연구 단계의 모델을 실제 서비스가 가능한 수준으로 가속하고, 수천 명의 동시 접속자를 감당할 수 있도록 인프라와 소프트웨어를 연결하는 고성능 추론 엔진."

📖 구조화된 지식 (Synthesized Content)

다양한 하드웨어 환경에서 LLM을 효율적으로 구동하고 서빙하기 위한 최적화된 프레임워크들입니다.

  1. vLLM:
    • 강점: PagedAttention 기술의 선구자로, 메모리 효율성과 처리량(Throughput)이 매우 뛰어납니다. 오픈소스 커뮤니티에서 가장 널리 사용됩니다.
    • 적합: 범용적인 LLM 서빙, 다중 사용자 요청 처리.
  2. TensorRT-LLM (NVIDIA):
    • 강점: NVIDIA 하드웨어에 최적화된 저수준 가속 라이브러리입니다. C++ 기반의 강력한 성능과 고도의 커널 최적화를 제공합니다.
    • 적합: 엔터프라이즈 급 고성능 서비스, NVIDIA 전용 클라우드 인프라.
  3. Ollama:
    • 강점: 복잡한 설정 없이 로컬 PC(macOS, Linux, Windows)에서 LLM을 즉시 실행할 수 있게 해주는 사용자 친화적 도구입니다.
    • 적합: 로컬 개발, 개인용 AI 어시스턴트, 경량 테스트 환경.
  4. TGI (Text Generation Inference):
    • 강점: Hugging Face에서 개발한 프로덕션용 추론 엔진으로, 안정성과 다양한 모델 지원이 특징입니다.

⚖️ Trade-offs & Caveats

  • 유연성 vs 성능: Ollama는 사용하기 매우 쉽지만 미세한 튜닝이 어렵고, TensorRT-LLM은 성능은 최강이지만 빌드 과정과 설정이 매우 복잡합니다.
  • 하드웨어 종속성: TensorRT-LLM은 NVIDIA GPU에서만 작동하며, vLLM은 AMD GPU 지원을 확장 중이지만 여전히 NVIDIA 최적화가 주를 이룹니다.

🔗 지식 연결 (Graph)


Last updated: 2026-05-04