2nd/10_Wiki/Topics/Multi-Agent-Reinforcement-Learning.md

---
id: RL-MARL-001
category: Dev
confidence_score: 1.0
tags: [ai, [[Reinforcement-Learning|Reinforcement-Learning]], multi-agent, marl, [[Game-Theory|Game-Theory]], coordination]
last_reinforced: 2026-04-26
---

# Multi-Agent Reinforcement Learning (MARL, 다중 에이전트 강화학습)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "개별 에이전트의 이기심을 넘어 집단의 하모니를 구축하고, 상호작용의 역동성 속에서 창발적 지능을 발현하라" — 여러 개의 독립적인 학습 주체(Agents)가 동일한 환경에서 동시에 학습하며 서로 협력하거나 경쟁하여 목표를 달성하는 강화학습 체계.

## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** "Co-evolution and Joint [[Strategy|Strategy]]" — 한 에이전트의 행동이 다른 에이전트의 보상과 환경을 변화시키는 '비정적인(Non-stationary)' 환경 문제를 해결하기 위해, 상대의 행동을 예측하고 공동의 목표나 내시 균형(Nash Equilibrium)을 찾아가는 진화적 학습 패턴.
- **핵심 아키텍처:**
    - **Independent Learning:** 각 에이전트가 타인을 환경의 일부로 보고 독립적으로 학습.
    - **Centralized Training, Decentralized Execution (CTDE):** 학습은 중앙에서 모든 정보를 모아 정교하게 수행하고, 실행은 각자 독립적인 네트워크로 수행하는 현대적 표준 방식.
- **의의:** 군집 로봇 제어, 자율주행 차량 간 통신, 주식 시장 시뮬레이션 등 실세계의 복잡한 다자간 상호작용 문제를 해결하기 위한 필수 기술.

## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 에이전트 수가 늘어날수록 탐색 공간이 기하급수적으로 폭증하는 문제를 해결하기 위해, 최근에는 에이전트 간의 '소통(Communication)' 프로토콜을 스스로 학습하게 하거나 그래프 신경망(GNN)을 결합하여 관계를 모델링하는 방향으로 진화.
- **정책 변화:** Antigravity 프로젝트는 여러 협업 AI(Planning Agent, Coding Agent, Review Agent 등)가 상호작용하며 하나의 작업을 완료할 때, 최적의 협업 효율을 도출하기 위해 MARL 기반의 워크플로우 최적화를 연구함.

## 🔗 지식 연결 (Graph)
- [[Reinforcement-Learning|Reinforcement-Learning]], [[Game-Theory|Game-Theory]], Monte-Carlo-Tree-Search-MCTS, Graph-Neural-Networks-GNN
- **Raw Source:** 10_Wiki/Topics/AI/Multi-Agent-Reinforcement-Learning.md