--- id: P-REINFORCE-AUTO-PRIS-001 category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 0.97 tags: [auto-reinforced, game-theory, nash-equilibrium, cooperation, rational-choice] last_reinforced: 2026-04-20 --- # [[Prisoners-Dilemma-Models|Prisoners-Dilemma-Models]] ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "κ°μžμ—κ²Œ μ΅œμ„ μ΄ λͺ¨λ‘μ—κ²ŒλŠ” μ΅œμ•…μ΄ λ˜λŠ” λΉ„κ·Ή: 개인의 합리적 선택이 μ§‘λ‹¨μ˜ νŒŒλ©Έμ„ λΆ€λ₯΄λŠ” μ‚¬νšŒμ  λ”œλ ˆλ§ˆλ₯Ό μˆ˜ν•™μ μœΌλ‘œ λͺ¨λΈλ§ν•œ κ²Œμž„ 이둠의 κ±Έμž‘." ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) μ£„μˆ˜μ˜ λ”œλ ˆλ§ˆ(Prisoner's Dilemma)λŠ” 두 λͺ…μ˜ 합리적 ν–‰μœ„μžκ°€ ν˜‘λ ₯(Cooperate)κ³Ό λ°°μ‹ (Defect) μ‚¬μ΄μ—μ„œ κ²ͺλŠ” κ°ˆλ“±μ„ λ„μ‹ν™”ν•œ λͺ¨λΈμž…λ‹ˆλ‹€. 1. **보상 ꡬ쑰 (Payoff Matrix)**: * λͺ¨λ‘ ν˜‘λ ₯ν•  λ•Œ(R): λ‘˜ λ‹€ μ λ‹Ήνžˆ 이득. * λ‚˜λ§Œ λ°°μ‹ ν•  λ•Œ(T): λ‚˜λ§Œ μ΅œλŒ€ 이득, μƒλŒ€λŠ” μ΅œλŒ€ 손해. * λ‚˜λ§Œ ν˜‘λ ₯ν•  λ•Œ(S): λ‚˜λŠ” μ΅œλŒ€ 손해, μƒλŒ€λŠ” μ΅œλŒ€ 이득. * λͺ¨λ‘ λ°°μ‹ ν•  λ•Œ(P): λ‘˜ λ‹€ 손해 (보톡 R보닀 λ‚˜μ˜κ³  S보닀 μ’‹μŒ). * **쑰건**: $T > R > P > S$ 및 $2R > T + S$ 2. **핡심 κ°œλ…**: * **μš°μ›” μ „λž΅ (Dominant Strategy)**: μƒλŒ€κ°€ 무엇을 ν•˜λ“  λ‚˜λŠ” 'λ°°μ‹ 'ν•˜λŠ” 것이 μœ λ¦¬ν•¨. * **λ‚΄μ‹œ κ· ν˜• (Nash Equilibrium)**: λ‘˜ λ‹€ 'λ°°μ‹ '을 μ„ νƒν•œ μƒνƒœ. 이 μƒνƒœμ—μ„œλŠ” λˆ„κ΅¬λ„ 혼자 μ „λž΅μ„ λ°”κΏ”μ„œ 이득을 λ³Ό 수 μ—†μŒ. * **Social Dilemma**: λ‚΄μ‹œ κ· ν˜•μΈ (P, P)λŠ” Pareto 졜적인 (R, R)보닀 μ‚¬νšŒ μ „μ²΄μ μœΌλ‘œ μ†ν•΄μž„. 3. **반볡된 μ£„μˆ˜μ˜ λ”œλ ˆλ§ˆ (Iterated PD)**: * κ²Œμž„μ΄ 반볡되면 μƒν˜Έ 신뒰와 보볡 κ°€λŠ₯μ„± λ•Œλ¬Έμ— 'ν˜‘λ ₯'이 생겨남. * **λˆˆμ—λŠ” 눈 (Tit-for-Tat)**: μƒλŒ€μ˜ 이전 수λ₯Ό κ·ΈλŒ€λ‘œ 따라 ν•˜λŠ” μ „λž΅μ΄ 평화와 곡쑴에 κ°€μž₯ νš¨μœ¨μ μž„μ΄ 증λͺ…됨. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌**: κ³ μ „ κ²½μ œν•™μ€ 인간을 피도 λˆˆλ¬Όλ„ μ—†λŠ” '호λͺ¨ μ—μ½”λ…Έλ―ΈμΏ μŠ€(이기적 합리성 주체)'둜 λ³΄μ•˜μœΌλ‚˜, μ‹€μ œ 인간 λŒ€μƒ μ‹€ν—˜μ—μ„œλŠ” 'ν˜Έν˜œμ„±'κ³Ό '이타성'이 λ‚΄μ‹œ κ· ν˜•μ„ κΉ¨κ³  ν˜‘λ ₯을 μ΄λŒμ–΄λ‚΄λŠ” κ²½μš°κ°€ λΉˆλ²ˆν•¨μ΄ 증λͺ…됨. - **μ •μ±… λ³€ν™”(RL Update)**: κΈ°ν›„ μœ„κΈ° λŒ€μ‘(νƒ„μ†Œ 배좜 μ œν•œ)κ³Ό 같은 κΈ€λ‘œλ²Œ 곡쑰 μ‹€νŒ¨ 문제λ₯Ό μ£„μˆ˜μ˜ λ”œλ ˆλ§ˆ λͺ¨λΈλ‘œ λΆ„μ„ν•˜μ—¬, λ¬΄μž„μŠΉμ°¨λ₯Ό λ°©μ§€ν•˜κ³  κ°•μ œμ  ν˜‘λ ₯을 μœ λ„ν•˜λŠ” νƒ„μ†Œ ꡭ경세와 같은 보볡 μ •μ±… λ„μž…μ˜ κ·Όκ±°κ°€ 됨. ## πŸ”— 지식 μ—°κ²° (Graph) - Game Theory, [[Decision Theory|Decision Theory]], [[Ethics & AI|Ethics & AI]], [[Social Systems Theory|Social Systems Theory]], Economic Models - **Modern Tech/Tools**: Axelrod's Tournament, Evolutionary Stable Strategy (ESS). ---