2.5 KiB
2.5 KiB
id, category, confidence_score, tags, last_reinforced
| id | category | confidence_score | tags | last_reinforced | |||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ALGO-MCTS-001 | Unified | 1.0 |
|
2026-04-26 |
Monte Carlo Tree Search (MCTS, 몬테카를로 트리 탐색)
📌 한 줄 통찰 (The Karpathy Summary)
"모든 가능성을 뒤지는 대신, 승산 있는 길을 무작위로 끝까지 가보고 최선의 선택지를 역으로 추적하라" — 방대한 탐색 공간에서 유망한 경로를 선택하고 무작위 시뮬레이션을 통해 가치를 평가하여 최적의 의사결정을 내리는 지능형 탐색 알고리즘.
📖 구조화된 지식 (Synthesized Content)
- 추출된 패턴: "Exploitation vs Exploration in Search" — 이미 검증된 좋은 수(Exploitation)와 아직 가보지 않은 새로운 가능성(Exploration) 사이의 균형을 UCB1 수식을 통해 조절하며 트리를 확장해 나가는 지능형 탐색 패턴.
- 4단계 프로세스:
- Selection: 루트에서 시작하여 UCB1 값이 가장 높은 자식 노드를 따라 내려감.
- Expansion: 탐색되지 않은 새로운 자식 노드를 트리에 추가.
- Simulation (Rollout): 해당 노드에서 게임의 끝까지 무작위로 진행하여 승패(보상) 확인.
- Backpropagation: 시뮬레이션 결과를 경로상의 모든 부모 노드에 업데이트하여 가치 갱신.
- 의의: 휴리스틱 함수 없이도 복잡한 게임의 최적해를 찾을 수 있게 하여, 알파고를 포함한 현대 보드게임 AI 및 로봇 경로 계획의 핵심 기술이 됨.
⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- 과거 데이터와의 충돌: 완전한 무작위 시뮬레이션에 의존하던 초기 방식에서, 이제는 신경망(Policy/Value Network)을 결합하여 시뮬레이션의 정확도와 탐색 효율을 극적으로 높인 'Deep MCTS'가 표준이 됨.
- 정책 변화: Antigravity 에이전트의 복잡한 문제 해결 시나리오(예: 다단계 코드 리팩토링 경로 탐색) 시, 각 단계의 잠재적 리스크와 이득을 평가하기 위해 MCTS 기반의 의사결정 시뮬레이션을 활용함.
🔗 지식 연결 (Graph)
- Markov-Decision-Process-MDP, Reinforcement-Learning, Monte-Carlo-Integration, Search-Algorithms, Game-Theory
- Raw Source: 10_Wiki/Topics/AI/Monte-Carlo-Tree-Search-MCTS.md