--- id: P-REINFORCE-AUTO-PRRE-001 category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 0.94 tags: [auto-reinforced, probabilistic-reasoning, probability, uncertainty, bayesian, reasoning, logic] last_reinforced: 2026-04-20 --- # [[Probabilistic-Reasoning|Probabilistic-Reasoning]] ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "0 μ•„λ‹ˆλ©΄ 1이 μ•„λ‹Œ 세상을 μ½λŠ” 법: '이것은 λΆ„λͺ…νžˆ 참이닀'라고 λ‹¨μ–Έν•˜λŠ” λŒ€μ‹ , '이것이 참일 ν™•λ₯ μ€ 80%λ‹€'라고 μ •μ˜ν•˜λ©° μƒˆλ‘œμš΄ 정보가 λ“€μ–΄μ˜¬ λ•Œλ§ˆλ‹€ κ·Έ ν™•λ₯ μ„ λŠμž„μ—†μ΄ μ—…λ°μ΄νŠΈν•΄ λ‚˜κ°€λŠ” μœ μ—°ν•œ μ§€μ„±." ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) ν™•λ₯ μ  μΆ”λ‘ (Probabilistic-Reasoning)은 λΆˆν™•μ‹€ν•œ 지식을 닀루기 μœ„ν•΄ ν™•λ₯ λ‘ μ  방법을 μ‚¬μš©ν•˜λŠ” μΆ”λ‘  κΈ°λ²•μž…λ‹ˆλ‹€. 1. **핡심 도ꡬ (Bayesian Updating)**: * **Prior**: 기쑴의 믿음. * **Evidence**: μƒˆλ‘œ 발견된 증거. * **Posterior**: 증거λ₯Ό λ°˜μ˜ν•΄ μ—…λ°μ΄νŠΈλœ 믿음. (MAP-Estimation와 μ—°κ²°) 2. **μ™œ μ€‘μš”ν•œκ°€?**: * μš°λ¦¬κ°€ μ‚¬λŠ” ν˜„μ‹€μ€ 정보가 항상 λΆ€μ‘±ν•˜κ³  λ…Έμ΄μ¦ˆκ°€ μ„žμ—¬ μžˆμ–΄(High uncertainty), 고전적 ν‘λ°±λ…Όλ¦¬λ‘œλŠ” ν•΄κ²°ν•  수 μ—†λŠ” λ¬Έμ œκ°€ 많기 λ•Œλ¬Έμž„. (Logic의 ν™•μž₯) ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌**: κ³Όκ±°μ—λŠ” 논리 κ·œμΉ™μ„ ν•œ 치의 였차 없이 μ§€ν‚€λŠ” μ •μ±…(Deterministic)을 μ™„λ²½ν•œ μ§€λŠ₯이라 μ—¬κ²ΌμœΌλ‚˜, ν˜„λŒ€ 정책은 λͺ¨ν˜Έν•¨ 정책을 'ν™•λ₯ 'μ΄λΌλŠ” 숫자둜 ν’ˆμ–΄λ‚΄λŠ” 'λΆ€λ“œλŸ¬μš΄ μΆ”λ‘  μ •μ±…'이 훨씬 더 λ³΅μž‘ν•œ ν˜„μ‹€ 정책을 잘 μ„€λͺ…함이 μž…μ¦λ¨(RL Update). - **μ •μ±… λ³€ν™”(RL Update)**: μƒμ„±ν˜• AIκ°€ 닡변을 λ‚΄λ†“λŠ” κ³Όμ • μžμ²΄κ°€ λ‹€μŒ 단어가 λ’€λ”°λΌμ˜¬ ν™•λ₯  정책을 κ³„μ‚°ν•˜λŠ” κ±°λŒ€ν•œ ν™•λ₯ μ  μΆ”λ‘  정책이며, 이λ₯Ό 더 μ΄μ„±μ μœΌλ‘œ λ§Œλ“€κΈ° μœ„ν•΄ 'ν™•λ₯ μ  λΉ” μ„œμΉ˜'λ‚˜ '졜적 μƒ˜ν”Œλ§ μ •μ±…' 등이 λ„μž…λ¨. (Large Language Models (LLM)와 μ—°κ²°) ## πŸ”— 지식 μ—°κ²° (Graph) - [[Logic|Logic]], [[MAP-Estimation|MAP-Estimation]], [[Large Language Models (LLM)|Large Language Models (LLM)]], [[Inexact-Science|Inexact-Science]], [[Judgment|Judgment]] - **Modern Tech/Tools**: Bayesian networks, Hidden Markov Models, Probabilistic programming (Pyro, PyMC3). ---