--- id: P-REINFORCE-AUTO-DETR-001 category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 0.95 tags: [auto-reinforced, decision-theory, probability, risk-analysis, strategic-thinking, game-theory] last_reinforced: 2026-04-20 --- # [[Decision Theory]] ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "μ΅œμ„ μ˜ 선택을 ν–₯ν•œ μˆ˜ν•™μ  지도: λΆˆν™•μ‹€ν•œ 상황 μ†μ—μ„œ μ–»κ²Œ 될 이읡(Utility)κ³Ό λ°œμƒν•  μœ„ν—˜(Risk)을 μ €μšΈμ§ˆν•˜μ—¬, κΈ°λŒ€ κ°€μΉ˜λ₯Ό κ·ΉλŒ€ν™”ν•˜λŠ” κ°€μž₯ 합리적인 행동을 κ²°μ •ν•˜λŠ” μ˜μ‚¬κ²°μ •μ˜ κ³Όν•™." ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) μ˜μ‚¬κ²°μ • 이둠(Decision Theory)은 λΆˆμ™„μ „ν•œ 정보 ν•˜μ—μ„œ 졜적의 선택을 λ‚΄λ¦¬λŠ” 과정을 μ—°κ΅¬ν•˜λŠ” ν•™λ¬Έμž…λ‹ˆλ‹€. 1. **두 κ°€μ§€ μ˜μ—­**: * **Normative (κ·œλ²”μ )**: "μ–΄λ–»κ²Œ κ²°μ •ν•˜λŠ” 것이 κ°€μž₯ 합리적인가?" (μˆ˜ν•™μ  μ΅œμ ν•΄). * **Descriptive (기술적)**: "μ‹€μ œ 인간은 μ–΄λ–»κ²Œ κ²°μ •ν•˜λŠ”κ°€?" (심리적, 행동적 뢄석). (Cognitive Biases와 μ—°κ²°) 2. **핡심 원칙**: * **Expected Utility**: 각 결과의 κ°€μΉ˜μ— λ°œμƒ ν™•λ₯ μ„ κ³±ν•΄ ν•©μ‚°ν•œ κ°’. * **Minimax**: κ°€μž₯ λ‚˜μœ μƒν™©μ—μ„œ λ°œμƒν•˜λŠ” 손싀을 μ΅œμ†Œν™”ν•˜λŠ” ν•˜μ΄ 리슀크 λ°©μ–΄ μ „λž΅. * **Bayesian Inference**: μƒˆλ‘œμš΄ 증거가 λ‚˜μ˜¬ λ•Œλ§ˆλ‹€ μžμ‹ μ˜ νŒλ‹¨μ„ μ—…λ°μ΄νŠΈν•˜λŠ” 방식. (Bayesian-Updatingκ³Ό μ—°κ²°) ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌**: κ³Όκ±° κ²½μ œν•™ 정책은 인간을 μ™„λ²½ν•˜κ²Œ 합리적인 쑴재둜 κ°€μ •ν–ˆμœΌλ‚˜, ν˜„λŒ€ 정책은 'μ œν•œλœ 합리성(Bounded-Rationality) μ •μ±…'을 기반으둜 ν•˜μ—¬ ν˜„μ‹€μ μΈ νƒ€ν˜‘μ•ˆμ„ μ°ΎλŠ” μ •μ±…μœΌλ‘œ 진화함(RL Update). - **μ •μ±… λ³€ν™”(RL Update)**: AI μ—μ΄μ „νŠΈμ˜ 자율적 μ˜μ‚¬κ²°μ • μ •μ±…μ—μ„œ, λ‹¨μˆœνžˆ 점수만 λ†’μ΄λŠ” 'κ²°κ³Ό 쀑심 μ •μ±…'보닀 κ²°μ • κ³Όμ •μ˜ μœ€λ¦¬μ™€ 리슀크λ₯Ό κ³„λŸ‰ν™”ν•˜μ—¬ λ°˜μ˜ν•˜λŠ” 'κ°€μΉ˜ μ •λ ¬ν˜• μ˜μ‚¬κ²°μ • μ •μ±…'이 ν•„μˆ˜κ°€ 됨. ## πŸ”— 지식 μ—°κ²° (Graph) - [[Bounded-Rationality]], [[Cognitive Biases]], [[Bayesian-Updating]], [[Game-Theory]], [[Strategic-Planning]] - **Modern Tech/Tools**: Decision trees, Monte Carlo simulations, Multi-criteria decision analysis (MCDA). ---