feat: complete wikification of War Commander batch 1&2 and final grey dot cleanup
This commit is contained in:
@@ -1,12 +1,12 @@
|
||||
---
|
||||
id: AI-INF-OPT-001
|
||||
category: "[[10_Wiki/💡 Topics/AI]]"
|
||||
category: "10_Wiki/💡 Topics/AI"
|
||||
confidence_score: 1.0
|
||||
tags: [ai, deep-learning, inference, optimization, quantization, model-serving]
|
||||
last_reinforced: 2026-04-26
|
||||
---
|
||||
|
||||
# [[Inference Optimization (추론 최적화)]]
|
||||
# Inference Optimization (추론 최적화)
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "모델의 지능은 유지하되, 실행 비용과 지연 시간(Latency)은 극한으로 깎아내어 실전 배치 능력을 확보하라" — 학습된 모델을 실제 서비스 환경에서 더 빠르고 가볍게 구동하기 위해 모델 구조와 연산 방식을 최적화하는 기술.
|
||||
@@ -26,5 +26,5 @@ last_reinforced: 2026-04-26
|
||||
- **정책 변화:** Antigravity 프로젝트는 로컬 브레인 구동 시 가용 VRAM 용량에 따라 모델을 4-bit 또는 8-bit로 동적 양자화하여, 저사양 기기에서도 초저지연 응답을 보장함.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
- [[Hardware-Acceleration-for-AI]], [[GPU-Architecture-for-AI]], [[System-Design-for-AI-Scale]], [[LLM]]
|
||||
- **Raw Source:** [[10_Wiki/Topics/AI/Inference-Optimization.md]]
|
||||
- [[Hardware-Acceleration-for-AI]], GPU-Architecture-for-AI, System-Design-for-AI-Scale, [[LLM]]
|
||||
- **Raw Source:** 10_Wiki/Topics/AI/Inference-Optimization.md
|
||||
|
||||
Reference in New Issue
Block a user