Files
2nd/10_Wiki/Topics/Monte-Carlo-Tree-Search-MCTS.md
T

2.4 KiB

id, category, confidence_score, tags, last_reinforced
id category confidence_score tags last_reinforced
ALGO-MCTS-001 10_Wiki/💡 Topics/AI 1.0
algorithm
ai
search
mcts
alphago
reinforcement-learning
game-theory
2026-04-26

Monte Carlo Tree Search (MCTS, 몬테카를로 트리 탐색)

📌 한 줄 통찰 (The Karpathy Summary)

"모든 가능성을 뒤지는 대신, 승산 있는 길을 무작위로 끝까지 가보고 최선의 선택지를 역으로 추적하라" — 방대한 탐색 공간에서 유망한 경로를 선택하고 무작위 시뮬레이션을 통해 가치를 평가하여 최적의 의사결정을 내리는 지능형 탐색 알고리즘.

📖 구조화된 지식 (Synthesized Content)

  • 추출된 패턴: "Exploitation vs Exploration in Search" — 이미 검증된 좋은 수(Exploitation)와 아직 가보지 않은 새로운 가능성(Exploration) 사이의 균형을 UCB1 수식을 통해 조절하며 트리를 확장해 나가는 지능형 탐색 패턴.
  • 4단계 프로세스:
    • Selection: 루트에서 시작하여 UCB1 값이 가장 높은 자식 노드를 따라 내려감.
    • Expansion: 탐색되지 않은 새로운 자식 노드를 트리에 추가.
    • Simulation (Rollout): 해당 노드에서 게임의 끝까지 무작위로 진행하여 승패(보상) 확인.
    • Backpropagation: 시뮬레이션 결과를 경로상의 모든 부모 노드에 업데이트하여 가치 갱신.
  • 의의: 휴리스틱 함수 없이도 복잡한 게임의 최적해를 찾을 수 있게 하여, 알파고를 포함한 현대 보드게임 AI 및 로봇 경로 계획의 핵심 기술이 됨.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

  • 과거 데이터와의 충돌: 완전한 무작위 시뮬레이션에 의존하던 초기 방식에서, 이제는 신경망(Policy/Value Network)을 결합하여 시뮬레이션의 정확도와 탐색 효율을 극적으로 높인 'Deep MCTS'가 표준이 됨.
  • 정책 변화: Antigravity 에이전트의 복잡한 문제 해결 시나리오(예: 다단계 코드 리팩토링 경로 탐색) 시, 각 단계의 잠재적 리스크와 이득을 평가하기 위해 MCTS 기반의 의사결정 시뮬레이션을 활용함.

🔗 지식 연결 (Graph)