2nd/10_Wiki/Topics/Model-Compression.md

---
id: P-REINFORCE-AI-MC
category: "10_Wiki/💡 Topics/AI"
confidence_score: 0.97
tags: [AI, ModelCompression, Optimization, Efficiency]
last_reinforced: 2026-04-20
---

# [[Model-Compression]] (모델 압축)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "거대 모델의 근육은 유지하고 지방(중복)만 걷어내어 스마트폰에 쑤셔 넣는 기술." 높은 성능을 내는 육중한 모델을 작은 용량과 빠른 속도로 변환하여, 클라우드가 없는 환경에서도 원활하게 작동하게 만드는 경량화 전략이다.

## 📖 구조화된 지식 (Synthesized Content)
- **The Core Techniques**:
    - **Pruning (가지치기)**: 성능에 지장 없는 중요도 낮은 가중치(뉴런)를 0으로 만들어 제거.
    - **Quantization (양자화)**: 32비트 실수를 8비트 정수로 변환하여 연산량과 메모리 획기적 절감.
    - **Knowledge Distillation (지식 증류)**: 큰 모델(Teacher)의 지식을 작은 모델(Student)이 효율적으로 흡수하게 함.
    - **Weight Sharing**: 공통된 가중치 값을 공유하여 숫자의 가짓수를 줄임.
- **Benefit**: 배터리 소모 감소, 실시간 반응성 확보, 개인정보 보호(On-device AI).

## ⚠️ 모순 및 업데이트 (RL Update)
- 압축이 너무 심하면 모델의 '상식'이나 '희귀 케이스 대응력'이 급격히 무너지는 현상(Performance Degradation)이 발생한다. 최근에는 단순히 압축하는 것을 넘어, 압축된 상태에서 다시 훈련시켜 성능을 복원하는 'Quantization-aware Training'이 대규모 언어 모델 서빙의 필수 기술이 되었다.

## 🔗 지식 연결 (Graph)
- Related: [[Knowledge-Distillation]] , Low-Rank Adaptation (LoRA)
- Hardware: Edge-AI