[G1-Sync] Manual knowledge update
This commit is contained in:
@@ -2,21 +2,21 @@
|
||||
id: AI-COMP-001
|
||||
category: "10_Wiki/💡 Topics/AI"
|
||||
confidence_score: 1.0
|
||||
tags: [ai, deep-learning, model-compression, quantization, pruning, efficient-ai]
|
||||
tags: [ai, [[Deep-Learning]], [[Model-Compression]], [[Quantization]], pruning, efficient-ai]
|
||||
last_reinforced: 2026-04-26
|
||||
---
|
||||
|
||||
# Model Compression Strategies (모델 압축 전략)
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "모델의 지능은 보존하되 그 몸집(Parameters)을 줄여, 클라우드의 한계를 넘어 모든 기기에서 지능이 숨 쉬게 하라" — 딥러닝 모델의 크기와 연산 복잡도를 줄여 추론 속도를 높이고 메모리 사용량을 절감하는 기술적 방법론.
|
||||
> "모델의 지능은 보존하되 그 몸집([[Parameter]]s)을 줄여, 클라우드의 한계를 넘어 모든 기기에서 지능이 숨 쉬게 하라" — 딥러닝 모델의 크기와 연산 복잡도를 줄여 추론 속도를 높이고 메모리 사용량을 절감하는 기술적 방법론.
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
- **추출된 패턴:** "Redundancy Reduction and Precision Scaling" — 신경망 내의 불필요한 연결을 제거하거나 수치의 정밀도를 조절함으로써, 모델의 정확도 손실을 최소화하며 자원 점유율을 획기적으로 낮추는 압축 패턴.
|
||||
- **주요 전략:**
|
||||
- **Quantization:** 32비트 가중치를 8비트나 4비트 정수로 변환. 연산 속도와 에너지 효율 극대화.
|
||||
- **Weight Pruning:** 중요도가 낮은 가중치를 0으로 만들어 모델을 희소(Sparse)하게 만듦.
|
||||
- **Knowledge Distillation:** 거대 모델의 지식을 가볍고 빠른 소형 모델로 전이.
|
||||
- **Knowledge [[Distillation]]:** 거대 모델의 지식을 가볍고 빠른 소형 모델로 전이.
|
||||
- **Low-Rank Factorization:** 큰 행렬을 작은 행렬들의 곱으로 분해하여 파라미터 수 감소.
|
||||
- **의의:** AI 모델이 연구실을 넘어 모바일, IoT, 자동차 등 실생활의 모든 접점에서 실시간으로 작동하게 만드는 핵심 인프라 기술.
|
||||
|
||||
|
||||
Reference in New Issue
Block a user