Multi-Agent Reinforcement Learning (MARL, 다중 에이전트 강화학습)

📌 한 줄 통찰 (The Karpathy Summary)

"개별 에이전트의 이기심을 넘어 집단의 하모니를 구축하고, 상호작용의 역동성 속에서 창발적 지능을 발현하라" — 여러 개의 독립적인 학습 주체(Agents)가 동일한 환경에서 동시에 학습하며 서로 협력하거나 경쟁하여 목표를 달성하는 강화학습 체계.

추출된 패턴: "Co-evolution and Joint Strategy" — 한 에이전트의 행동이 다른 에이전트의 보상과 환경을 변화시키는 '비정적인(Non-stationary)' 환경 문제를 해결하기 위해, 상대의 행동을 예측하고 공동의 목표나 내시 균형(Nash Equilibrium)을 찾아가는 진화적 학습 패턴.
핵심 아키텍처:
- Independent Learning: 각 에이전트가 타인을 환경의 일부로 보고 독립적으로 학습.
- Centralized Training, Decentralized Execution (CTDE): 학습은 중앙에서 모든 정보를 모아 정교하게 수행하고, 실행은 각자 독립적인 네트워크로 수행하는 현대적 표준 방식.
의의: 군집 로봇 제어, 자율주행 차량 간 통신, 주식 시장 시뮬레이션 등 실세계의 복잡한 다자간 상호작용 문제를 해결하기 위한 필수 기술.

과거 데이터와의 충돌: 에이전트 수가 늘어날수록 탐색 공간이 기하급수적으로 폭증하는 문제를 해결하기 위해, 최근에는 에이전트 간의 '소통(Communication)' 프로토콜을 스스로 학습하게 하거나 그래프 신경망(GNN)을 결합하여 관계를 모델링하는 방향으로 진화.
정책 변화: Antigravity 프로젝트는 여러 협업 AI(Planning Agent, Coding Agent, Review Agent 등)가 상호작용하며 하나의 작업을 완료할 때, 최적의 협업 효율을 도출하기 위해 MARL 기반의 워크플로우 최적화를 연구함.

Reinforcement-Learning, Game-Theory, Monte-Carlo-Tree-[[Search-MCTS]], Graph-Neural-Networks-GNN
Raw Source: 10_Wiki/Topics/AI/Multi-Agent-Reinforcement-Learning.md