2nd/10_Wiki/Topics_GD/Knowledge-Distillation.md

---
id: AI-DISTILL-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 1.0
tags: [ai, [[Deep-Learning|Deep-Learning]], knowledge-[[Distillation|Distillation]], [[Model-Compression|Model-Compression]], [[Inference-Optimization|Inference-Optimization]]]
last_reinforced: 2026-04-26
---

# Knowledge Distillation (지식 증류)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "거인의 방대한 지식을 요약하여 작은 아이의 머릿속에 효율적으로 이식하라" — 거대한 사전 학습 모델(Teacher)이 가진 정교한 예측 확률 분포를 작은 경량 모델(Student)이 학습하게 하여, 성능 손실을 최소화하면서 추론 속도를 비약적으로 높이는 기법.

## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** "Teacher-Student Learning" — 정답 레이블(Hard Target)뿐만 아니라, 티처 모델이 내놓은 각 클래스별 확률값(Soft Target)에 담긴 '클래스 간 상관관계' 정보까지 스튜던트 모델이 학습하게 하는 지식 전수 패턴.
- **작동 원리:**
    - **Teacher Model:** 풍부한 파라미터를 가진 고성능 모델.
    - **Student Model:** 실전 배포를 위한 가벼운 모델.
    - **Temperature (T):** 소프트맥스 결과값을 부드럽게 만들어(Softening) 스튜던트 모델이 더 풍부한 정보를 배우게 함.
- **의의:** 거대 모델의 뛰어난 일반화 능력을 유지하면서도 모바일이나 엣지 기기에서 실시간 구동 가능한 모델을 만들 수 있게 함 (예: [[BERT|BERT]] -> DistilBERT).

## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 단순히 모델의 크기를 줄이는(Pruning, [[Quantization|Quantization]]) 하드웨어적 접근을 넘어, 모델의 '사고 방식' 자체를 최적화하여 전수하는 알고리즘적 접근으로 진화.
- **정책 변화:** Antigravity 프로젝트는 로컬 브레인용 경량 모델 제작 시, 클라우드 브레인의 거대 파라미터 모델을 티처로 삼아 지식 증류 과정을 거침으로써 소형 모델의 지능을 상향 평준화함.

## 🔗 지식 연결 (Graph)
- [[Inference-Optimization|Inference-Optimization]], Transfer-Learning-Foundations, [[LLM|LLM]], [[Hardware-Acceleration-for-AI|Hardware-Acceleration-for-AI]]
- **Raw Source:** 10_Wiki/Topics/AI/Knowledge-Distillation.md