--- id: wiki-2026-0508-kullback-leibler-divergence title: Kullback Leibler Divergence category: 10_Wiki/Topics status: needs_review canonical_id: self aliases: [MATH-KL-001] duplicate_of: none source_trust_level: A confidence_score: 1.0 tags: [math, Statistics, kl-divergence, Information-Theory, loss-functions, ai] raw_sources: [] last_reinforced: 2026-04-26 github_commit: pending inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08) tech_stack: language: unspecified framework: unspecified --- # Kullback-Leibler Divergence (KL λ°œμ‚°) ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "두 세상(ν™•λ₯  뢄포) μ‚¬μ΄μ˜ 어긋남을 μΈ‘μ •ν•˜μ—¬, λͺ¨λΈμ΄ 진싀에 μ–Όλ§ˆλ‚˜ λ„λ‹¬ν–ˆλŠ”μ§€ 수치둜 증λͺ…ν•˜λΌ" β€” μ–΄λ–€ ν™•λ₯  뢄포 $P$λ₯Ό λ‹€λ₯Έ ν™•λ₯  뢄포 $Q$둜 λŒ€μ²΄ν–ˆμ„ λ•Œ λ°œμƒν•˜λŠ” 정보 μ†μ‹€μ˜ 양을 μΈ‘μ •ν•˜λŠ” λΉ„λŒ€μΉ­μ  μ§€ν‘œ. ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) - **μΆ”μΆœλœ νŒ¨ν„΄:** "Distribution [[Alignment|Alignment]]" β€” λͺ¨λΈμ˜ 좜λ ₯ 뢄포λ₯Ό νƒ€κ²Ÿ 뢄포에 κ·Όμ‚¬μ‹œν‚€κΈ° μœ„ν•΄ 정보 μ—”νŠΈλ‘œν”Όμ˜ 차이λ₯Ό μ΅œμ†Œν™”ν•˜λ©° μ§€μ‹μ˜ μ™œκ³‘μ„ μ€„μ—¬λ‚˜κ°€λŠ” μ΅œμ ν™” νŒ¨ν„΄. - **핡심 μ„±μ§ˆ:** - **Non-negativity:** 항상 0 이상이며, 두 뢄포가 μ™„λ²½νžˆ 같을 λ•Œλ§Œ 0μž„ (Gibbs' In[[Equality|Equality]]). - **Asymmetry:** $D_{KL}(P||Q) \neq D_{KL}(Q||P)$. 즉, 기쀀이 λ˜λŠ” 뢄포에 따라 값이 달라짐 (거리 κ°œλ…μ΄ μ•„λ‹˜). - **AIμ—μ„œμ˜ μ‘μš©:** - **VAE (Variational Autoencoder):** 잠재 κ³΅κ°„μ˜ 뢄포λ₯Ό κ°€μš°μ‹œμ•ˆ 뢄포에 κ°€κΉκ²Œ κ°•μ œ. - **PPO (Reinforcement Learning):** μƒˆλ‘œμš΄ 정책이 이전 μ •μ±…κ³Ό λ„ˆλ¬΄ κΈ‰κ²©ν•˜κ²Œ λ³€ν•˜μ§€ μ•Šλ„λ‘ μ œμ•½. - **Knowledge [[Distillation|Distillation]]:** 슀튜던트 λͺ¨λΈμ΄ ν‹°μ²˜ λͺ¨λΈμ˜ ν™•λ₯  뢄포λ₯Ό λ”°λΌκ°€κ²Œ 함. - **의의:** AI λͺ¨λΈμ΄ λ‹¨μˆœνžˆ 정닡을 λ§žνžˆλŠ” 것을 λ„˜μ–΄, λ°μ΄ν„°μ˜ λ‚΄μž¬λœ ν™•λ₯  ꡬ쑰 자체λ₯Ό ν•™μŠ΅ν•˜κ²Œ λ§Œλ“œλŠ” μˆ˜ν•™μ  λ‚˜μΉ¨λ°˜. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & Updates) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌:** λŒ€μΉ­μ μΈ 거리 κ°œλ…(Euclidean Distance)으둜 μ ‘κ·Όν•˜λ˜ 초기 방식을 λ„˜μ–΄, μ •λ³΄μ˜ 흐름과 μ†Œμ‹€ κ΄€μ μ—μ„œ ν™•λ₯  뢄포λ₯Ό λΉ„κ΅ν•˜λŠ” 정보 이둠적 접근이 ν˜„λŒ€ AI의 ν‘œμ€€μ΄ 됨. - **μ •μ±… λ³€ν™”:** Antigravity ν”„λ‘œμ νŠΈλŠ” μ—μ΄μ „νŠΈμ˜ 페λ₯΄μ†Œλ‚˜ λ―Έμ„Έ μ‘°μ •([[Fine-tuning|Fine-tuning]]) μ‹œ, κΈ°μ‘΄ λͺ¨λΈκ³Όμ˜ KL λ°œμ‚°μ„ λͺ¨λ‹ˆν„°λ§ν•˜μ—¬ μ›λž˜μ˜ μœ μš©ν•œ μ§€λŠ₯이 νŒŒκ΄΄λ˜μ§€ μ•Šλ„λ‘ 관리함. ## πŸ”— 지식 μ—°κ²° (Graph) - Probability-Theory, [[Kolmogorov-Complexity|Kolmogorov-Complexity]], [[Knowledge-Distillation|Knowledge-Distillation]], [[Reinforcement-Learning|Reinforcement-Learning]] - **Raw Source:** 10_Wiki/Topics/AI/Kullback-Leibler-Divergence.md ## πŸ€– LLM ν™œμš© 힌트 (How to Use This Knowledge) **μ–Έμ œ 이 지식을 μ“°λŠ”κ°€:** - *(TODO)* **μ–Έμ œ μ“°λ©΄ μ•ˆ λ˜λŠ”κ°€:** - *(TODO)* ## πŸ§ͺ 검증 μƒνƒœ (Validation) - **정보 μƒνƒœ:** needs_review - **좜처 신뒰도:** A - **κ²€ν†  이유:** *(P-Reinforce Phase 1 μžλ™ μ •κ·œν™”. λ³Έλ¬Έ 검증 ν•„μš”.)* ## 🧬 쀑볡 검사 (Duplicate Check) - **κΈ°μ‘΄ μœ μ‚¬ λ¬Έμ„œ:** *(TODO: μΈλ±μ„œ ν΄λŸ¬μŠ€ν„° 리포트 μ°Έμ‘°)* - **처리 방식:** UPDATE (μžλ™ μ •κ·œν™”) - **처리 이유:** Phase 1 μ •κ·œν™” β€” μ˜› ν…œν”Œλ¦Ώ/λˆ„λ½ ν•„λ“œ 보강. ## πŸ•“ λ³€κ²½ 이λ ₯ (Changelog) | λ‚ μ§œ | λ³€κ²½ λ‚΄μš© | 처리 방식 | 신뒰도 | |------|-----------|-----------|--------| | 2026-05-08 | P-Reinforce Phase 1 μ •κ·œν™” (frontmatter + 헀더 ν‘œμ€€ν™”) | UPDATE | A | ## πŸ’» μ½”λ“œ νŒ¨ν„΄ (Code Patterns) **νŒ¨ν„΄ 1:** *(TODO: 이 ν”„λ‘œμ νŠΈ μ»¨λ²€μ…˜ λ°˜μ˜ν•œ ꡬ쑰 μŠ€μΌˆλ ˆν†€)* ```text # TODO ``` ## πŸ€” μ˜μ‚¬κ²°μ • κΈ°μ€€ (Decision Criteria) **선택 Aλ₯Ό 써야 ν•  λ•Œ:** - *(TODO)* **선택 Bλ₯Ό 써야 ν•  λ•Œ:** - *(TODO)* **κΈ°λ³Έκ°’:** > *(TODO)* ## ❌ μ•ˆν‹°νŒ¨ν„΄ (Anti-Patterns) - **[μ•ˆν‹°νŒ¨ν„΄]:** *(TODO: 무엇을 ν•˜λ©΄ μ•ˆ λ˜λŠ”κ°€ + 이유 + λŒ€μ‹  무엇을)*