Files
2nd/10_Wiki/Topics_Blog/Kullback-Leibler-Divergence.md
T

32 lines
2.4 KiB
Markdown

---
id: MATH-KL-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 1.0
tags: [math, statistics, kl-divergence, information-theory, loss-functions, ai]
last_reinforced: 2026-04-26
---
# Kullback-Leibler Divergence (KL 발산)
## 📌 한 줄 통찰 (The Karpathy Summary)
> "두 세상(확률 분포) 사이의 어긋남을 측정하여, 모델이 진실에 얼마나 도달했는지 수치로 증명하라" — 어떤 확률 분포 $P$를 다른 확률 분포 $Q$로 대체했을 때 발생하는 정보 손실의 양을 측정하는 비대칭적 지표.
## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** "Distribution Alignment" — 모델의 출력 분포를 타겟 분포에 근사시키기 위해 정보 엔트로피의 차이를 최소화하며 지식의 왜곡을 줄여나가는 최적화 패턴.
- **핵심 성질:**
- **Non-negativity:** 항상 0 이상이며, 두 분포가 완벽히 같을 때만 0임 (Gibbs' Inequality).
- **Asymmetry:** $D_{KL}(P||Q) \neq D_{KL}(Q||P)$. 즉, 기준이 되는 분포에 따라 값이 달라짐 (거리 개념이 아님).
- **AI에서의 응용:**
- **VAE (Variational Autoencoder):** 잠재 공간의 분포를 가우시안 분포에 가깝게 강제.
- **PPO (Reinforcement Learning):** 새로운 정책이 이전 정책과 너무 급격하게 변하지 않도록 제약.
- **Knowledge Distillation:** 스튜던트 모델이 티처 모델의 확률 분포를 따라가게 함.
- **의의:** AI 모델이 단순히 정답을 맞히는 것을 넘어, 데이터의 내재된 확률 구조 자체를 학습하게 만드는 수학적 나침반.
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 대칭적인 거리 개념(Euclidean Distance)으로 접근하던 초기 방식을 넘어, 정보의 흐름과 소실 관점에서 확률 분포를 비교하는 정보 이론적 접근이 현대 AI의 표준이 됨.
- **정책 변화:** Antigravity 프로젝트는 에이전트의 페르소나 미세 조정(Fine-tuning) 시, 기존 모델과의 KL 발산을 모니터링하여 원래의 유용한 지능이 파괴되지 않도록 관리함.
## 🔗 지식 연결 (Graph)
- Probability-Theory, [[Kolmogorov-Complexity|Kolmogorov-Complexity]], [[Knowledge-Distillation|Knowledge-Distillation]], [[Reinforcement-Learning|Reinforcement-Learning]]
- **Raw Source:** 10_Wiki/Topics/AI/Kullback-Leibler-Divergence.md