--- id: monte-carlo-tree-search-(mcts) title: "Monte Carlo Tree Search (MCTS)" category: "10_Wiki/Topics" status: "draft" verification_status: "conceptual" canonical_id: "" aliases: ["MA-MCTS", "Metric-Advantage MCTS"] duplicate_of: "" source_trust_level: "B" confidence_score: 0.85 created_at: 2026-06-12 updated_at: 2026-06-12 review_reason: "" merge_history: [] tags: ["research", "self envolving", "optimization", "search-algorithm"] raw_sources: ["NotebookLM Synthesis"] applied_in: ["AFlow", "PromptAgent", "Math-Shepherd", "AlphaMath", "Agent Q", "SEA-TS"] github_commit: "" --- # [[Monte Carlo Tree Search (MCTS)]] ## 🎯 ν•œ 쀄 톡찰 (One-line insight) MCTSλŠ” 자기 μ§„ν™”ν˜• μ—μ΄μ „νŠΈ μ‹œμŠ€ν…œμ—μ„œ λ°©λŒ€ν•œ 섀계 곡간을 νƒμƒ‰ν•˜κ³ , λ³΅μž‘ν•œ μΆ”λ‘  κ³Όμ •μ˜ 단계별 보상을 μƒμ„±ν•˜λ©°, 졜적의 ν”„λ‘¬ν”„νŠΈμ™€ μ›Œν¬ν”Œλ‘œμš°λ₯Ό μ „λž΅μ μœΌλ‘œ λ°œκ²¬ν•˜κΈ° μœ„ν•œ 핡심 탐색 μ•Œκ³ λ¦¬μ¦˜μ΄λ‹€. [1-4] ## 🧠 핡심 κ°œλ… (Core concepts) - **섀계 곡간 탐색 (Design Space Navigation):** μ—μ΄μ „νŠΈ μ‹œμŠ€ν…œμ˜ μ›Œν¬ν”Œλ‘œμš° κ΅¬μ„±μ΄λ‚˜ μ•Œκ³ λ¦¬μ¦˜ μ†ŒμŠ€ μ½”λ“œμ™€ 같은 λ°©λŒ€ν•˜κ³  튜링 μ™„μ „ν•œ 섀계 곡간을 효율적으둜 νƒμƒ‰ν•œλ‹€. [2, 5] - **단계별 감독 (Step-wise Supervision):** μ΅œμ’… μ •λ‹΅ λ„μΆœ κ°€λŠ₯성을 ν‰κ°€ν•˜μ—¬ λ³΅μž‘ν•œ μΆ”λ‘  문제(예: μˆ˜ν•™)의 쀑간 단계듀에 λŒ€ν•œ μ •κ΅ν•œ 보상 μ‹ ν˜Έλ₯Ό μƒμ„±ν•œλ‹€. [3] - **탐색과 ν™œμš©μ˜ κ· ν˜• (Exploration-Exploration Trade-off):** μƒˆλ‘œμš΄ μ „λž΅μ  경둜의 발견과 κΈ°μ‘΄ κ³ μ„±λŠ₯ 경둜의 μ •λ°€ν™” μ‚¬μ΄μ—μ„œ κ· ν˜•μ„ λ§žμΆ˜λ‹€. [3, 4] - **μ§€ν‘œ μš°μœ„ κ°€μ΄λ“œ (Metric-Advantage Guidance):** κ³ μ •λœ 보상 λŒ€μ‹  μ •κ·œν™”λœ μš°μœ„ 점수(Advantage Score)λ₯Ό μ‚¬μš©ν•˜μ—¬ νƒμƒ‰μ˜ 변별λ ₯을 높인닀. [4] ## 🧩 μΆ”μΆœλœ νŒ¨ν„΄ (Extracted patterns) - **μžλ™ ν”„λ‘œμ„ΈμŠ€ 주석화 (Automatic Process Annotation):** μΈκ°„μ˜ κ°œμž… 없이 MCTS 둀아웃을 톡해 쀑간 λ‹¨κ³„μ˜ 정확성을 ν‰κ°€ν•˜κ³  ν”„λ‘œμ„ΈμŠ€ 보상 λͺ¨λΈ(PRM) ν•™μŠ΅ 데이터λ₯Ό μƒμ„±ν•˜λŠ” νŒ¨ν„΄μ΄λ‹€. [3] - **ν”„λ‘¬ν”„νŠΈ 발견의 트리 탐색화:** λͺ…λ Ήμ–΄(Instruction) 곡간을 트리 ꡬ쑰둜 κ°„μ£Όν•˜κ³  MCTSλ₯Ό 톡해 μ „λž΅μ μœΌλ‘œ 졜적의 ν”„λ‘¬ν”„νŠΈλ₯Ό μ°Ύμ•„λ‚΄λŠ” νœ΄λ¦¬μŠ€ν‹±μ΄λ‹€. [1] - **인ꡬ 기반 μ›Œν¬ν”Œλ‘œμš° 탐색:** μ—¬λŸ¬ μ—μ΄μ „νŠΈμ˜ ν˜‘μƒ‰ ꡬ쑰(Topology)λ₯Ό μ΅œμ ν™”ν•˜κΈ° μœ„ν•΄ MCTSλ₯Ό μ‚¬μš©ν•˜μ—¬ 인간이 μ„€κ³„ν•œ 것보닀 μš°μˆ˜ν•œ μ›Œν¬ν”Œλ‘œμš°λ₯Ό μžλ™ λ°œκ²¬ν•œλ‹€. [2, 6] ## πŸ“– μ„ΈλΆ€ λ‚΄μš© (Details) - **μ›Œν¬ν”Œλ‘œμš° μžλ™ 생성 (AFlow):** AFlow ν”„λ ˆμž„μ›Œν¬λŠ” μž¬μ‚¬μš© κ°€λŠ₯ν•œ μ—°μ‚°μžλ₯Ό λ„μž…ν•˜κ³  MCTSλ₯Ό μ‚¬μš©ν•˜μ—¬ μ—μ΄μ „νŠΈ κ°„μ˜ 톡신 ꡬ쑰와 μž‘μ—… μœ„μž„ 체계λ₯Ό μ΅œμ ν™”ν•œλ‹€. 이λ₯Ό 톡해 인간이 μ„€κ³„ν•œ μ‹œμŠ€ν…œλ³΄λ‹€ 높은 μ„±λŠ₯을 달성할 수 μžˆμŒμ„ 증λͺ…ν–ˆλ‹€. [2, 6] - **μ‹œκ³„μ—΄ 예츑 μ•Œκ³ λ¦¬μ¦˜ μ§„ν™” (SEA-TS):** **Metric-Advantage MCTS(MA-MCTS)**λ₯Ό λ„μž…ν•˜μ—¬ μ‹œκ³„μ—΄ 예츑 μ½”λ“œ 생성 및 μ΅œμ ν™”λ₯Ό μˆ˜ν–‰ν•œλ‹€. κ³ μ •λœ 보상을 μ •κ·œν™”λœ 이점 점수둜 λŒ€μ²΄ν•˜μ—¬ νƒμƒ‰μ˜ νš¨μœ¨μ„±μ„ λ†’μ˜€μœΌλ©°, 이λ₯Ό 톡해 νƒœμ–‘κ΄‘ 및 μ „λ ₯ λΆ€ν•˜ μ˜ˆμΈ‘μ—μ„œ SOTA(State-of-the-art) μ„±λŠ₯을 κΈ°λ‘ν–ˆλ‹€. [4] - **μˆ˜ν•™μ  μΆ”λ‘  κ°•ν™”:** - **Math-Shepherd:** MCTSλ₯Ό ν™œμš©ν•΄ 각 단계가 μ •λ‹΅μœΌλ‘œ μ΄μ–΄μ§ˆ 잠재λ ₯을 ν‰κ°€ν•¨μœΌλ‘œμ¨ μΈκ°„μ˜ 주석 없이도 단계별 감독 μ‹ ν˜Έλ₯Ό μˆ˜μ§‘ν•œλ‹€. [3] - **AlphaMath:** MCTS ν”„λ ˆμž„μ›Œν¬ λ‚΄μ—μ„œ 탐색과 ν™œμš©μ„ λ°˜λ³΅ν•˜λ©° μ •μ±…(Policy)κ³Ό κ°€μΉ˜ λͺ¨λΈ(Value Model)을 λ™μ‹œμ— μ—…λ°μ΄νŠΈν•œλ‹€. [3] - **Agent Q:** MCTS ν”„λ‘œμ„ΈμŠ€μ— 단계별 검증 λ©”μ»€λ‹ˆμ¦˜μ„ ν†΅ν•©ν•˜μ—¬ κ³ ν’ˆμ§ˆ ꢀ적을 μˆ˜μ§‘ν•˜κ³ , 이λ₯Ό DPO(Direct Preference Optimization) ν•™μŠ΅μ— ν™œμš©ν•œλ‹€. [3] - **ν”„λ‘¬ν”„νŠΈ μ΅œμ ν™” (PromptAgent):** ν”„λ‘¬ν”„νŠΈ 발견 과정을 MCTS둜 λͺ¨λΈλ§ν•˜μ—¬ μ—μ΄μ „νŠΈκ°€ μˆ˜ν–‰ν•  μž‘μ—…μ˜ λͺ…λ Ήμ–΄λ₯Ό μ „λž΅μ μœΌλ‘œ νƒμƒ‰ν•˜κ³  κ°œμ„ ν•œλ‹€. [1] ## βš–οΈ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & updates) - **보상 μ„€κ³„μ˜ μ§„ν™”:** 초기 μ‹œμŠ€ν…œλ“€μ€ κ³ μ •λœ 보상 값을 μ‚¬μš©ν–ˆμœΌλ‚˜, μ΅œμ‹  연ꡬ인 SEA-TSμ—μ„œλŠ” νƒμƒ‰μ˜ 변별λ ₯을 μœ„ν•΄ μ •κ·œν™”λœ 'μš°μœ„ 점수(Advantage Score)'λ₯Ό μ‚¬μš©ν•˜λŠ” λ°©μ‹μœΌλ‘œ μ—…λ°μ΄νŠΈλ˜μ—ˆλ‹€. [4] - **νŠΈλ¦¬μ—μ„œ κ·Έλž˜ν”„λ‘œμ˜ ν™•μž₯:** MLEvolve와 같은 μ΅œμ‹  ν”„λ ˆμž„μ›Œν¬λŠ” MCTSλ₯Ό ν™•μž₯ν•œ **Progressive MCGS(Monte Carlo Graph Search)**λ₯Ό μ‚¬μš©ν•˜μ—¬ 브랜치 κ°„ 정보 흐름을 ν—ˆμš©ν•˜κ³  νƒμƒ‰μ—μ„œ ν™œμš©μœΌλ‘œ μ μ§„μ μœΌλ‘œ μ „ν™˜ν•˜λŠ” 방식을 μ±„νƒν•˜κ³  μžˆλ‹€. [7] ## πŸ› οΈ 적용 사둀 (Applied in summary) - **AFlow:** Monte Carlo Tree Searchλ₯Ό 인ꡬ 기반 μ›Œν¬ν”Œλ‘œμš° νƒμƒ‰μ˜ 핡심 μ•Œκ³ λ¦¬μ¦˜μœΌλ‘œ μ‚¬μš©ν•˜μ—¬ μˆ˜ν•™ 문제(GSM8K, MATH) ν•΄κ²° λŠ₯λ ₯을 κ·ΉλŒ€ν™”ν–ˆλ‹€. [6] - **SEA-TS:** MA-MCTSλ₯Ό 톡해 μ‹œκ³„μ—΄ 예츑 μ•Œκ³ λ¦¬μ¦˜μ˜ μ†ŒμŠ€ μ½”λ“œλ₯Ό 자율 μƒμ„±ν•˜κ³  물리적 μ œμ•½ 쑰건을 λ°˜μ˜ν•œ μƒˆλ‘œμš΄ μ•„ν‚€ν…μ²˜ νŒ¨ν„΄μ„ λ°œκ²¬ν–ˆλ‹€. [4] - **Math-Shepherd & AlphaMath:** μˆ˜ν•™ 문제 해결을 μœ„ν•œ 단계별 보상 λͺ¨λΈ(PRM) ꡬ좕 및 μ •μ±… κ°œμ„ μ— MCTS 둀아웃 데이터λ₯Ό μ μš©ν–ˆλ‹€. [3] - **PromptAgent:** μ „λ¬Έκ°€ μˆ˜μ€€μ˜ ν”„λ‘¬ν”„νŠΈ μ΅œμ ν™”λ₯Ό μœ„ν•΄ λͺ…λ Ήμ–΄ 곡간 탐색 λ„κ΅¬λ‘œ MCTSλ₯Ό ν™œμš©ν–ˆλ‹€. [1] - **Agent Q:** μ›Ή λΈŒλΌμš°μ§• λ“± λ³΅μž‘ν•œ μž‘μ—…μ—μ„œ κ³ ν’ˆμ§ˆ μ‹€ν–‰ ꢀ적을 μˆ˜μ§‘ν•˜κΈ° μœ„ν•΄ MCTS 기반의 검증 루프λ₯Ό μ μš©ν–ˆλ‹€. [3] ## βœ… 검증 μƒνƒœ 및 신뒰도 - **μƒνƒœ:** draft - **검증 단계:** conceptual (AFlow, SEA-TS λ“± μ‹€μ œ ν”„λ ˆμž„μ›Œν¬ λ‚΄ 핡심 μ•Œκ³ λ¦¬μ¦˜μœΌλ‘œ 적용됨 확인) - **좜처 신뒰도:** B (ν•™μˆ  λ…Όλ¬Έ 및 기술 쑰사λ₯Ό 기반으둜 ν•œ μ’…ν•© 정보) - **쀑볡 검사 κ²°κ³Ό:** μ‹ κ·œ 생성 (New discovery) ## πŸ“ λ³€κ²½ 이λ ₯ (Change history) - 2026-06-12: 초기 μ΄ˆμ•ˆ μž‘μ„±. P-Reinforce v3.0 규격 적용. 자기 μ§„ν™” μ—μ΄μ „νŠΈ λ‚΄ MCTS μ—­ν•  및 λ³€ν˜• μ•Œκ³ λ¦¬μ¦˜(MA-MCTS, MCGS) 데이터 톡합. [Datacollector_MAC P-Reinforce engine]