feat: Wiki 지식 자산 업데이트 - UX Scenarios, Frontend, Game Design, Topics 추가 [2026-05-08]

2026-05-08 19:52:07 +09:00
parent 9dd3d40662
commit 5ba5a55c78
3984 changed files with 334557 additions and 28839 deletions
@@ -1,30 +1,25 @@
 ---
-id: AI-INF-OPT-001
-category: Unified
-confidence_score: 1.0
-tags: [ai, [[Deep-Learning|Deep-Learning]], inference, [[Optimization|Optimization]], [[Quantization|Quantization]], model-serving]
-last_reinforced: 2026-04-26
+id: wiki-2026-0508-inference-optimization
+title: Inference Optimization
+category: 10_Wiki/Topics/AI_and_ML
+status: merged
+redirect_to: LLM_Optimization_and_Deployment_Strategies
+canonical_id: LLM_Optimization_and_Deployment_Strategies
+aliases: [P-Reinforce-REDIRECT-INF-OPT-DASH]
+duplicate_of: none
+source_trust_level: A
+confidence_score: 0.92
+tags: [redirect]
+raw_sources: []
+last_reinforced: 2026-05-08
+github_commit: pending
+inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08)
 ---

-# Inference Optimization (추론 최적화)
+# [[Inference-Optimization]]

-## 📌 한 줄 통찰 (The Karpathy Summary)
-> "모델의 지능은 유지하되, 실행 비용과 지연 시간(Latency)은 극한으로 깎아내어 실전 배치 능력을 확보하라" — 학습된 모델을 실제 서비스 환경에서 더 빠르고 가볍게 구동하기 위해 모델 구조와 연산 방식을 최적화하는 기술.
+> [!IMPORTANT]
+> 이 문서는 고밀도 지식 자산 통합 정책에 따라 **[[LLM_Optimization_and_Deployment_Strategies]]**으로 통합되었습니다.

-## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** "Lightweight Intelligence" — 모델의 파라미터 중 중요도가 낮은 부분을 제거하거나 정밀도를 낮추어, 하드웨어 자원을 덜 쓰면서도 유사한 성능을 내게 하는 효율성 극대화 패턴.
- **주요 최적화 기법:**
-    - **Quantization (양자화):** FP32 가중치를 INT8 등으로 변환하여 메모리 사용량과 연산 속도 개선.
-    - **Pruning (가지치기):** 성능에 영향이 적은 뉴런이나 연결(Weights)을 제거하여 모델 경량화.
-    - **Knowledge [[Distillation|Distillation]] (지식 증류):** 거대 모델(Teacher)의 지식을 작은 모델(Student)에게 전수.
-    - **[[Opera|Opera]]tor Fusion:** 여러 연산을 하나로 합쳐 메모리 접근 횟수 감소.
-    - **Caching:** 트랜스포머의 KV Cache 등 반복 연산 결과 재사용.
- **의의:** AI 모델이 연구실을 넘어 모바일 기기나 실시간 응답이 필요한 대규모 서비스에 적용될 수 있게 하는 핵심 동력.
-
-## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 모델이 클수록 무조건 좋다는 믿음에서 벗어나, 이제는 주어진 자원([[Budget|Budget]]) 내에서 최적의 성능을 내는 '비율 효율적 지능'이 산업계의 표준으로 자리 잡음.
- **정책 변화:** Antigravity 프로젝트는 로컬 브레인 구동 시 가용 VRAM 용량에 따라 모델을 4-bit 또는 8-bit로 동적 양자화하여, 저사양 기기에서도 초저지연 응답을 보장함.
-
-## 🔗 지식 연결 (Graph)
- [[Hardware-Acceleration-for-AI|Hardware-Acceleration-for-AI]], [[GPU-Architecture|GPU-Architecture]]-for-AI,[[_system|system]]-Design-for-AI-Scale, [[LLM|LLM]]
- **Raw Source:** 10_Wiki/Topics/AI/Inference-Optimization.md
+---
+*Redirected to: [[LLM_Optimization_and_Deployment_Strategies]]*