Files
2nd/10_Wiki/Topics_Blog/Model-Compression.md
T

1.8 KiB

id, category, confidence_score, tags, last_reinforced
id category confidence_score tags last_reinforced
P-REINFORCE-AI-MC 10_Wiki/💡 Topics/AI 0.97
AI
ModelCompression
Optimization
Efficiency
2026-04-20

Model-Compression (모델 압축)

📌 한 줄 통찰 (The Karpathy Summary)

"거대 모델의 근육은 유지하고 지방(중복)만 걷어내어 스마트폰에 쑤셔 넣는 기술." 높은 성능을 내는 육중한 모델을 작은 용량과 빠른 속도로 변환하여, 클라우드가 없는 환경에서도 원활하게 작동하게 만드는 경량화 전략이다.

📖 구조화된 지식 (Synthesized Content)

  • The Core Techniques:
    • Pruning (가지치기): 성능에 지장 없는 중요도 낮은 가중치(뉴런)를 0으로 만들어 제거.
    • Quantization (양자화): 32비트 실수를 8비트 정수로 변환하여 연산량과 메모리 획기적 절감.
    • Knowledge Distillation (지식 증류): 큰 모델(Teacher)의 지식을 작은 모델(Student)이 효율적으로 흡수하게 함.
    • Weight Sharing: 공통된 가중치 값을 공유하여 숫자의 가짓수를 줄임.
  • Benefit: 배터리 소모 감소, 실시간 반응성 확보, 개인정보 보호(On-device AI).

⚠️ 모순 및 업데이트 (RL Update)

  • 압축이 너무 심하면 모델의 '상식'이나 '희귀 케이스 대응력'이 급격히 무너지는 현상(Performance Degradation)이 발생한다. 최근에는 단순히 압축하는 것을 넘어, 압축된 상태에서 다시 훈련시켜 성능을 복원하는 'Quantization-aware Training'이 대규모 언어 모델 서빙의 필수 기술이 되었다.

🔗 지식 연결 (Graph)