feat: Wiki 지식 자산 업데이트 - UX Scenarios, Frontend, Game Design, Topics 추가 [2026-05-08]

This commit is contained in:
2026-05-08 19:52:07 +09:00
parent 9dd3d40662
commit 5ba5a55c78
3984 changed files with 334557 additions and 28839 deletions
+19 -28
View File
@@ -1,34 +1,25 @@
---
id: [[P-Reinforce|P-Reinforce]]-AUTO-QUAN-001
category: Unified
confidence_score: 0.96
tags: [auto-reinforced, quantization, [[Deep-Learning|Deep-Learning]], performance, [[Hardware|Hardware]]-[[Optimization|Optimization]], llm-inference]
last_reinforced: 2026-04-20
id: wiki-2026-0508-quantization
title: Quantization
category: 10_Wiki/Topics/AI_and_ML
status: merged
redirect_to: LLM_Optimization_and_Deployment_Strategies
canonical_id: LLM_Optimization_and_Deployment_Strategies
aliases: [P-Reinforce-REDIRECT-QUANTIZATION]
duplicate_of: none
source_trust_level: A
confidence_score: 0.92
tags: [redirect]
raw_sources: []
last_reinforced: 2026-05-08
github_commit: pending
inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08)
---
# [[Quantization|Quantization]]
# [[Quantization]]
## 📌 한 줄 통찰 (The Karpathy Summary)
> "디지털 다이어트의 예술: 32비트 고정밀 실수로 저장된 거대 AI 모델의 가중치를 4비트나 8비트 정수로 압축하여, 성능은 거의 유지하면서 용량과 연산 속도를 1/10 수준으로 혁명적으로 줄여 스마트폰에서도 AI가 돌아가게 만드는 마법."
> [!IMPORTANT]
> 이 문서는 고밀도 지식 자산 통합 정책에 따라 **[[LLM_Optimization_and_Deployment_Strategies]]**으로 통합되었습니다.
## 📖 구조화된 지식 (Synthesized Content)
양자화(Quantization)는 딥러닝 모델의 파라미터를 더 적은 비트 수의 데이터 형식으로 변환하여 효율성을 높이는 기법입니다.
1. **주요 방식**:
* **PTQ (Post-Training Quantization)**: 학습이 끝난 모델을 변환 (빠르고 간편).
* **QAT (Quantization-Aware Training)**: 변환 시 발생할 오차를 학습 과정에서 미리 고려 (고정밀 유지).
2. **이점**:
* **Speed**: 연산 처리량(Throughput) 대폭 향상. ([[Efficiency|Efficiency]]와 연결)
* **Energy**: 전력 소모 감소. ([[Physical-Intelligence|Physical-Intelligence]]와 연결)
* **[[memory|memory]]**: 모델 크기 축소로 저사양 하드웨어 탑재 가능.
3. **왜 중요한가?**:
* AI가 서버실에만 갇혀있지 않고 우리 주머니 속 기기(On-device AI)로 내려오기 위한 필수 관문이기 때문임.
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌**: 과거에는 비트를 줄이면 지능 정책(Accuracy)이 심각하게 떨어진다고 믿었으나, 현대 정책은 4비트 수준에서도 고정밀 모델과 거의 차이 없는 거동 정책을 보이도록 하는 고도의 압축 알고리즘 정책(GPTQ, AWQ 등)이 개발됨(RL Update).
- **정책 변화(RL Update)**: 단순히 비트를 줄이는 정책을 넘어, 중요한 레이어는 유지하고 덜 중요한 레이어만 양자화하는 '혼합 정밀도 양자화 정책'이 표준 정책이 됨.
## 🔗 지식 연결 (Graph)
- [[Efficiency|Efficiency]], [[Physical-Intelligence|Physical-Intelligence]], Deep Learning (DL), [[Hardware|Hardware]], [[Optimization|Optimization]]
- **Modern Tech/Tools**: TensorRT, GGUF (LLM), bitsandbytes, INT8/FP4 calculation.
---
*Redirected to: [[LLM_Optimization_and_Deployment_Strategies]]*