---
id: P-REINFORCE-AUTO-PRIS-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 0.97
tags: [auto-reinforced, game-theory, nash-equilibrium, cooperation, rational-choice]
last_reinforced: 2026-04-20
---

# [[Prisoners-Dilemma-Models|Prisoners-Dilemma-Models]]

## 📌 한 줄 통찰 (The Karpathy Summary)
> "각자에게 최선이 모두에게는 최악이 되는 비극: 개인의 합리적 선택이 집단의 파멸을 부르는 사회적 딜레마를 수학적으로 모델링한 게임 이론의 걸작."

## 📖 구조화된 지식 (Synthesized Content)
죄수의 딜레마(Prisoner's Dilemma)는 두 명의 합리적 행위자가 협력(Cooperate)과 배신(Defect) 사이에서 겪는 갈등을 도식화한 모델입니다.

1.  **보상 구조 (Payoff Matrix)**:
    *   모두 협력할 때(R): 둘 다 적당히 이득.
    *   나만 배신할 때(T): 나만 최대 이득, 상대는 최대 손해.
    *   나만 협력할 때(S): 나는 최대 손해, 상대는 최대 이득.
    *   모두 배신할 때(P): 둘 다 손해 (보통 R보다 나쁘고 S보다 좋음).
    *   **조건**: $T > R > P > S$ 및 $2R > T + S$
2.  **핵심 개념**:
    *   **우월 전략 (Dominant Strategy)**: 상대가 무엇을 하든 나는 '배신'하는 것이 유리함.
    *   **내시 균형 (Nash Equilibrium)**: 둘 다 '배신'을 선택한 상태. 이 상태에서는 누구도 혼자 전략을 바꿔서 이득을 볼 수 없음.
    *   **Social Dilemma**: 내시 균형인 (P, P)는 Pareto 최적인 (R, R)보다 사회 전체적으로 손해임.
3.  **반복된 죄수의 딜레마 (Iterated PD)**:
    *   게임이 반복되면 상호 신뢰와 보복 가능성 때문에 '협력'이 생겨남.
    *   **눈에는 눈 (Tit-for-Tat)**: 상대의 이전 수를 그대로 따라 하는 전략이 평화와 공존에 가장 효율적임이 증명됨.

## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌**: 고전 경제학은 인간을 피도 눈물도 없는 '호모 에코노미쿠스(이기적 합리성 주체)'로 보았으나, 실제 인간 대상 실험에서는 '호혜성'과 '이타성'이 내시 균형을 깨고 협력을 이끌어내는 경우가 빈번함이 증명됨.
- **정책 변화(RL Update)**: 기후 위기 대응(탄소 배출 제한)과 같은 글로벌 공조 실패 문제를 죄수의 딜레마 모델로 분석하여, 무임승차를 방지하고 강제적 협력을 유도하는 탄소 국경세와 같은 보복 정책 도입의 근거가 됨.

## 🔗 지식 연결 (Graph)
- Game Theory, [[Decision Theory|Decision Theory]], [[Ethics & AI|Ethics & AI]], [[Social Systems Theory|Social Systems Theory]], Economic Models
- **Modern Tech/Tools**: Axelrod's Tournament, Evolutionary Stable Strategy (ESS).
---