id: P-Reinforce-AUTO-PRIS-001 category: Unified confidence_score: 0.97 tags: [auto-reinforced, Game-Theory, nash-equilibrium, coOperation, rational-choice] last_reinforced: 2026-04-20

Prisoners-Dilemma-Models

"각자에게 최선이 모두에게는 최악이 되는 비극: 개인의 합리적 선택이 집단의 파멸을 부르는 사회적 딜레마를 수학적으로 모델링한 게임 이론의 걸작."

죄수의 딜레마(Prisoner's Dilemma)는 두 명의 합리적 행위자가 협력(Cooperate)과 배신(Defect) 사이에서 겪는 갈등을 도식화한 모델입니다.

보상 구조 (Payoff Matrix):
- 모두 협력할 때(R): 둘 다 적당히 이득.
- 나만 배신할 때(T): 나만 최대 이득, 상대는 최대 손해.
- 나만 협력할 때(S): 나는 최대 손해, 상대는 최대 이득.
- 모두 배신할 때(P): 둘 다 손해 (보통 R보다 나쁘고 S보다 좋음).
- 조건: T > R > P > S 및 2R > T + S
핵심 개념:
- 우월 전략 (Dominant Strategy): 상대가 무엇을 하든 나는 '배신'하는 것이 유리함.
- 내시 균형 (Nash Equilibrium): 둘 다 '배신'을 선택한 상태. 이 상태에서는 누구도 혼자 전략을 바꿔서 이득을 볼 수 없음.
- Social Dilemma: 내시 균형인 (P, P)는 Pareto 최적인 (R, R)보다 사회 전체적으로 손해임.
반복된 죄수의 딜레마 (Iterated PD):
- 게임이 반복되면 상호 신뢰와 보복 가능성 때문에 '협력'이 생겨남.
- 눈에는 눈 (Tit-for-Tat): 상대의 이전 수를 그대로 따라 하는 전략이 평화와 공존에 가장 효율적임이 증명됨.

과거 데이터와의 충돌: 고전 경제학은 인간을 피도 눈물도 없는 '호모 에코노미쿠스(이기적 합리성 주체)'로 보았으나, 실제 인간 대상 실험에서는 '호혜성'과 '이타성'이 내시 균형을 깨고 협력을 이끌어내는 경우가 빈번함이 증명됨.
정책 변화(RL Update): 기후 위기 대응(탄소 배출 제한)과 같은 글로벌 공조 실패 문제를 죄수의 딜레마 모델로 분석하여, 무임승차를 방지하고 강제적 협력을 유도하는 탄소 국경세와 같은 보복 정책 도입의 근거가 됨.

Game Theory, Decision Theory, Ethics & AI, SocialSystems Theory, Economic Models
Modern Tech/Tools: Axelrod's Tournament, Evolutionary Stable Strategy (ESS).