2.3 KiB
2.3 KiB
id, category, confidence_score, tags, last_reinforced
| id | category | confidence_score | tags | last_reinforced | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| AI-DISTILL-001 | 10_Wiki/💡 Topics/AI | 1.0 |
|
2026-04-26 |
Knowledge Distillation (지식 증류)
📌 한 줄 통찰 (The Karpathy Summary)
"거인의 방대한 지식을 요약하여 작은 아이의 머릿속에 효율적으로 이식하라" — 거대한 사전 학습 모델(Teacher)이 가진 정교한 예측 확률 분포를 작은 경량 모델(Student)이 학습하게 하여, 성능 손실을 최소화하면서 추론 속도를 비약적으로 높이는 기법.
📖 구조화된 지식 (Synthesized Content)
- 추출된 패턴: "Teacher-Student Learning" — 정답 레이블(Hard Target)뿐만 아니라, 티처 모델이 내놓은 각 클래스별 확률값(Soft Target)에 담긴 '클래스 간 상관관계' 정보까지 스튜던트 모델이 학습하게 하는 지식 전수 패턴.
- 작동 원리:
- Teacher Model: 풍부한 파라미터를 가진 고성능 모델.
- Student Model: 실전 배포를 위한 가벼운 모델.
- Temperature (T): 소프트맥스 결과값을 부드럽게 만들어(Softening) 스튜던트 모델이 더 풍부한 정보를 배우게 함.
- 의의: 거대 모델의 뛰어난 일반화 능력을 유지하면서도 모바일이나 엣지 기기에서 실시간 구동 가능한 모델을 만들 수 있게 함 (예: BERT -> DistilBERT).
⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- 과거 데이터와의 충돌: 단순히 모델의 크기를 줄이는(Pruning, Quantization) 하드웨어적 접근을 넘어, 모델의 '사고 방식' 자체를 최적화하여 전수하는 알고리즘적 접근으로 진화.
- 정책 변화: Antigravity 프로젝트는 로컬 브레인용 경량 모델 제작 시, 클라우드 브레인의 거대 파라미터 모델을 티처로 삼아 지식 증류 과정을 거침으로써 소형 모델의 지능을 상향 평준화함.
🔗 지식 연결 (Graph)
- Inference-Optimization, Transfer-Learning-Foundations, LLM, Hardware-Acceleration-for-AI
- Raw Source: 10_Wiki/Topics/AI/Knowledge-Distillation.md