--- id: ALGO-MCTS-001 category: Dev confidence_score: 1.0 tags: [algorithm, ai, [[Search|Search]], mcts, alphago, [[Reinforcement-Learning|Reinforcement-Learning]], [[Game-Theory|Game-Theory]]] last_reinforced: 2026-04-26 --- # Monte Carlo Tree Search (MCTS, 몬테카를로 트리 탐색) ## 📌 한 줄 통찰 (The Karpathy Summary) > "모든 가능성을 뒤지는 대신, 승산 있는 길을 무작위로 끝까지 가보고 최선의 선택지를 역으로 추적하라" — 방대한 탐색 공간에서 유망한 경로를 선택하고 무작위 시뮬레이션을 통해 가치를 평가하여 최적의 의사결정을 내리는 지능형 탐색 알고리즘. ## 📖 구조화된 지식 (Synthesized Content) - **추출된 패턴:** "Exploitation vs Exploration in Search" — 이미 검증된 좋은 수(Exploitation)와 아직 가보지 않은 새로운 가능성(Exploration) 사이의 균형을 UCB1 수식을 통해 조절하며 트리를 확장해 나가는 지능형 탐색 패턴. - **4단계 프로세스:** - **Selection:** 루트에서 시작하여 UCB1 값이 가장 높은 자식 노드를 따라 내려감. - **Expansion:** 탐색되지 않은 새로운 자식 노드를 트리에 추가. - **Simulation (Rollout):** 해당 노드에서 게임의 끝까지 무작위로 진행하여 승패(보상) 확인. - **[[Backpropagation|Backpropagation]]:** 시뮬레이션 결과를 경로상의 모든 부모 노드에 업데이트하여 가치 갱신. - **의의:** 휴리스틱 함수 없이도 복잡한 게임의 최적해를 찾을 수 있게 하여, 알파고를 포함한 현대 보드게임 AI 및 로봇 경로 계획의 핵심 기술이 됨. ## ⚠️ 모순 및 업데이트 (Contradictions & RL Update) - **과거 데이터와의 충돌:** 완전한 무작위 시뮬레이션에 의존하던 초기 방식에서, 이제는 신경망(Policy/Value Network)을 결합하여 시뮬레이션의 정확도와 탐색 효율을 극적으로 높인 'Deep MCTS'가 표준이 됨. - **정책 변화:** Antigravity 에이전트의 복잡한 문제 해결 시나리오(예: 다단계 코드 리팩토링 경로 탐색) 시, 각 단계의 잠재적 리스크와 이득을 평가하기 위해 MCTS 기반의 의사결정 시뮬레이션을 활용함. ## 🔗 지식 연결 (Graph) - [[Markov-Decision-Process-MDP|Markov-Decision-Process-MDP]], [[Reinforcement-Learning|Reinforcement-Learning]], [[Monte-Carlo-Integration|Monte-Carlo-Integration]], Search-Algorithms, [[Game-Theory|Game-Theory]] - **Raw Source:** 10_Wiki/Topics/AI/Monte-Carlo-Tree-Search-MCTS.md