Files
2nd/10_Wiki/Topics/Knowledge-Distillation.md
T

2.2 KiB

id, category, confidence_score, tags, last_reinforced
id category confidence_score tags last_reinforced
AI-DISTILL-001 10_Wiki/💡 Topics/AI 1.0
ai
deep-learning
knowledge-distillation
model-compression
inference-optimization
2026-04-26

Knowledge Distillation (지식 증류)

📌 한 줄 통찰 (The Karpathy Summary)

"거인의 방대한 지식을 요약하여 작은 아이의 머릿속에 효율적으로 이식하라" — 거대한 사전 학습 모델(Teacher)이 가진 정교한 예측 확률 분포를 작은 경량 모델(Student)이 학습하게 하여, 성능 손실을 최소화하면서 추론 속도를 비약적으로 높이는 기법.

📖 구조화된 지식 (Synthesized Content)

  • 추출된 패턴: "Teacher-Student Learning" — 정답 레이블(Hard Target)뿐만 아니라, 티처 모델이 내놓은 각 클래스별 확률값(Soft Target)에 담긴 '클래스 간 상관관계' 정보까지 스튜던트 모델이 학습하게 하는 지식 전수 패턴.
  • 작동 원리:
    • Teacher Model: 풍부한 파라미터를 가진 고성능 모델.
    • Student Model: 실전 배포를 위한 가벼운 모델.
    • Temperature (T): 소프트맥스 결과값을 부드럽게 만들어(Softening) 스튜던트 모델이 더 풍부한 정보를 배우게 함.
  • 의의: 거대 모델의 뛰어난 일반화 능력을 유지하면서도 모바일이나 엣지 기기에서 실시간 구동 가능한 모델을 만들 수 있게 함 (예: BERT -> DistilBERT).

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

  • 과거 데이터와의 충돌: 단순히 모델의 크기를 줄이는(Pruning, Quantization) 하드웨어적 접근을 넘어, 모델의 '사고 방식' 자체를 최적화하여 전수하는 알고리즘적 접근으로 진화.
  • 정책 변화: Antigravity 프로젝트는 로컬 브레인용 경량 모델 제작 시, 클라우드 브레인의 거대 파라미터 모델을 티처로 삼아 지식 증류 과정을 거침으로써 소형 모델의 지능을 상향 평준화함.

🔗 지식 연결 (Graph)