2nd/10_Wiki/Topics/Topic_Agent/Multi-Agent System.md

---
id: multi-agent-system
title: "Multi-Agent System"
category: "10_Wiki/Topics"
status: "draft"
verification_status: "conceptual"
canonical_id: ""
aliases: ["MAS", "Agent Societies", "Multi-Agent Evolution"]
duplicate_of: ""
source_trust_level: "B"
confidence_score: 0.85
created_at: 2026-06-12
updated_at: 2026-06-12
review_reason: ""
merge_history: []
tags: ["research", "self envolving", "multi-agent"]
raw_sources: ["NotebookLM Synthesis"]
applied_in: ["https://github.com/CharlesQ9/Self-Evolving-Agents", "https://github.com/ag2ai/Live-Evo", "https://github.com/qhjqhj00/MetaAgent", "https://github.com/aiming-lab/SimpleMem", "https://github.com/zzatpku/AgentFactory", "https://github.com/aiming-lab/Agent0", "https://github.com/ShaoShuai0605/Misevolution", "https://github.com/aiming-lab/ATP", "https://github.com/chenxu2-gif/TacoMAS-MultiAgent", "https://github.com/cf3i/SocialSystemArena", "https://github.com/zikuicai/aegisllm", "https://github.com/tmlr-group/AlphaApollo", "https://github.com/ShengranHu/ADAS", "https://github.com/SWE-agent/SWE-agent", "https://github.com/jennyzzt/dgm", "https://github.com/NVIDIA/nemoclaw-community", "policy.yaml", "PCT/EP2025/080977"]
github_commit: ""
---

# [[Multi-Agent System]]

## 🎯 한 줄 통찰 (One-line insight)
**Multi-Agent System(MAS)**은 개별 에이전트의 지능을 넘어, 동적인 협력 토폴로지, 공유 지식 베이스, 상호 피드백 루프를 통해 스스로의 구조와 정책을 재설계하며 집단 지능을 진화시키는 자율적 에이전트 사회이다 [1-3].

## 🧠 핵심 개념 (Core concepts)
- **에이전트 시스템 공식화 ($\Pi$):** 시스템은 토폴로지($\Gamma$), 모델($\psi$), 컨텍스트/메모리($C$), 도구 집합($\mathcal{W}$)의 튜플 $\Pi = (\Gamma, \{\psi_i\}, \{C_i\}, \{\mathcal{W}_i\})$로 정의된다 [2, 4].
- **에이전틱 워크플로 최적화 (Agentic Workflow Optimization):** 고정된 구조를 넘어 Monte Carlo Tree Search(MCTS) 등을 활용하여 복잡한 문제 해결에 최적화된 에이전트 간 통신 및 협력 구조를 탐색하고 개선한다 [5-7].
- **다중 에이전트 강화 학습 (MARL):** 여러 에이전트가 상호작용하며 개별 및 집단 보상을 최대화하기 위해 내부 행동 정책을 공동으로 진화시킨다 [8-10].
- **시스템 아키텍처 진화 (System Architecture Evolution):** 오류 신호를 기반으로 에이전트 팀 구성, 역할 정의, 워크플로를 동적으로 수정하는 "텍스트 역전파(Textual Backpropagation)" 메커니즘을 포함한다 [11, 12].

## 🧩 추출된 패턴 (Extracted patterns)
- **피라미드 구조의 DAG 토폴로지:** 에이전트를 Directed Acyclic Graph(DAG) 형태로 배치하고 병목 현상 감지 시 노드를 동적으로 삽입, 병합 또는 제거하여 구조를 진화시킨다 [13, 14].
- **토너먼트 기반 선택 (ELO Selection):** 에이전트 변종들을 생성하고 상호 대결(ELO 스코어 기반)을 통해 가장 우수한 전략과 구조를 가진 에이전트를 선발하여 아카이브에 유지한다 [13, 15].
- **Maxwell's Demon 검증 전략:** 에이전트가 생성한 데이터가 학습 루프에 들어가기 전, 외부 검증기(규칙 기반 또는 Human-in-the-loop)를 통해 고엔트로피(유해하거나 허구적인) 데이터를 필터링한다 [16, 17].
- **지식 및 메타 가이드라인 뱅크:** 원본 경험 데이터와 이를 정제한 절차적 규칙을 분리 저장하여 도메인 변화에 유연하게 대응한다 [18, 19].

## 📖 세부 내용 (Details)
- **MAS의 진화 방향성:**
    - **워크플로 최적화:** 자연어 명령으로부터 선형 또는 그래프 기반 워크플로를 자동 생성하고, 실행 결과를 바탕으로 기호적 학습(Symbolic Learning)을 통해 규칙을 도출한다 [20, 21].
    - **자율 에이전트 최적화:** 에이전트가 자신의 소스 코드를 직접 수정하거나(Darwin Gödel Machine), 하이레벨 아키텍처 "청사진"을 학습 가능한 구성 요소로 취급하여 조합한다 [22, 23].
- **다중 에이전트 협력 가속기:**
    - **DecentMem:** 공유 메모리의 통신 오버헤드와 다양성 붕괴를 해결하기 위해 각 에이전트가 독립적인 탐색/착취 메모리 풀을 유지하는 분산 메모리 프레임워크이다 [24].
    - **TacoMAS:** 테스트 시간에 에이전트의 역량(빠른 루프)과 통신 토폴로지(느린 루프)를 동시에 적응시켜 조정 안정성을 유지한다 [25].
- **응용 도메인:**
    - **통신(6G):** 자율 감지, 의사결정, 구성을 통해 네트워크 자원을 실시간으로 최적화하는 Self-Evolving Network(SEN)를 구현한다 [9, 26].
    - **의료:** 의사, 환자, 간호사 에이전트가 가상 케이스를 치료하며 진단 전략을 스스로 정교화한다 [27, 28].
    - **보안:** 취약점 보호 에이전트들이 CVE 공개부터 보호 시그니처 생성까지의 과정을 자동화하며, 상호 감사 루프를 통해 안전성을 검증한다 [29-31].

## ⚖️ 모순 및 업데이트 (Contradictions & updates)
- **Self-Evolution Trilemma (불가능의 삼위일체):** 에이전트 사회는 '지속적인 자기 진화', '완전한 격리', '안전 불변성'을 동시에 만족할 수 없다 [32-34]. 격리된 상태에서 자기 진화 시 통계적 사각지대와 안전 제약 조건의 손실이 불가시적으로 누적된다 [35, 36].
- **집단 편향 vs 개별 추론:** 집단 토론은 진단 정확도를 높일 수 있으나, 에이전트들이 집단 합의에 과도하게 의존하게 되어 개별 추론 능력이 저하되는 위험이 존재한다 [37].
- **쿼리 수준 vs 작업 수준 워크플로:** 모든 쿼리에 대해 개별 워크플로를 생성하는 것보다, 상위 K개의 최적 작업 수준 워크플로가 더 효율적이고 넓은 범위를 커버할 수 있다는 주장이 제기되었다 [38].

## 🛠️ 적용 사례 (Applied in summary)
- **Darwin Gödel Machine (DGM):** 코딩 에이전트가 자신의 코드 저장소, 도구, 워크플로를 스스로 수정하여 SWE-bench Verified 성능을 20%에서 50%로 향상시킨 실제 사례가 보고되었다 [23, 39].
- **Cato Networks CVE Protection Agent:** 16단계의 하위 에이전트 워크플로를 통해 CVE 분석부터 검증까지 자동화하며, 연구원의 피드백을 통해 로직을 지속적으로 업데이트한다 [29, 40, 41].
- **CosmoPhoeniX-Halley:** 혜성 탐사를 위해 시각, 계획, 모터 제어 등을 담당하는 분산된 지능 단위(TxMUs)와 MSRP(Mutual Surgical Repair Protocols)를 통한 에이전트 간 물리적 수리 프로토콜을 설계하였다 [42-44].
- **NVIDIA NemoClaw:** `policy.yaml` 파일에 네트워크 접근 정책을 코드화하여 에이전트의 도구 사용 권한을 제어하고, ATIF(Agent Trajectory Format)를 통해 의사결정 과정을 추적한다 [45, 46].

## ✅ 검증 상태 및 신뢰도
- **상태:** draft
- **검증 단계:** conceptual (DGM, Cato Agent 등 일부 시스템에서 실제 적용 및 성능 향상 검증됨)
- **출처 신뢰도:** B (ArXiv Survey, ICLR Workshop, NVIDIA/Microsoft/Sakana AI 기술 보고서 기반)
- **중복 검사 결과:** 신규 생성 (New discovery)

## 📝 변경 이력 (Change history)
- 2026-06-12: Initial draft generated via Datacollector_MAC P-Reinforce engine. (P-Reinforce v3.0 준수)