Files
2nd/01_Archive/2026-04-20/Tree-of-Thought (ToT, 사고 트리).md
T

100 lines
3.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
[[Tree-of-Thought (ToT, 사고 트리)|Tree-of-Thought (ToT, 사고 트리)]]
📌 Brief Summary
Tree-of-Thought(ToT)는 LLM이 문제를 선형 단계(Chain-of-Thought)가 아닌 **트리 구조**로 탐색하여, 각 중간 단계에서 여러 가능한 사고 경로를 분기(Branch)하고 평가·선택하는 추론 프레임워크다. 체스나 수학 퍼즐처럼 초반 선택이 최종 결과에 결정적 영향을 미치는 문제에서 Chain-of-Thought보다 월등히 높은 정확도를 보인다.
---
📖 Core Content
## 1. CoT vs ToT 구조 비교
```
[Chain-of-Thought (CoT)]
S → T₁ → T₂ → T₃ → 답
(선형 단일 경로 → 한 번 틀리면 복구 불가)
[Tree-of-Thought (ToT)]
S
/ | \
T₁ T₂ T₃ ← 단계 1: 3가지 사고 분기 생성
/│\ │
A B C D ← 단계 2: 각 분기에서 추가 확장
[평가] B가 가장 유망 → B만 계속 탐색
최종 답 (유망한 경로만 깊이 탐색)
```
---
## 2. ToT의 4가지 핵심 요소
| 요소 | 설명 |
|------|------|
| **Thought (사고 단위)** | 중간 추론 단계 (문장·방정식·계획 등) |
| **Generator (생성기)** | LLM이 현재 상태에서 여러 Thought 후보 생성 |
| **Evaluator (평가기)** | 각 Thought의 유망도 점수화 (LLM 또는 별도 함수) |
| **Search (탐색 전략)** | BFS(너비 우선) 또는 DFS(깊이 우선) 선택 |
---
## 3. 탐색 전략
| 전략 | 방법 | 적합 문제 |
|------|------|---------|
| **BFS** (너비 우선) | 현재 레벨의 모든 Thought 평가 후 상위 K개 유지 | 레벨별 평가 가능한 단계적 문제 |
| **DFS** (깊이 우선) | 유망한 경로 깊게 탐색, 막히면 backtrack | 해가 깊은 곳에 있는 탐색 문제 |
| **MCTS** (몬테카를로 트리 탐색) | 시뮬레이션 + 통계적 선택 | 게임·복잡한 의사결정 |
---
## 4. 성능 수치
| 벤치마크 | IO (직접 출력) | CoT | ToT | ToT 향상 |
|---------|------------|-----|-----|---------|
| **Game of 24** (수식 퍼즐) | 7.3% | 4.0% | **74%** | +67%p |
| **Creative Writing** | — | — | **+평가점수 향상** | 창의성+논리 균형 |
| **Mini Crosswords** | 0% | 3.7% | **20%** | +16%p |
---
## 5. ToT 정확도 향상의 인과관계
```
[CoT의 한계]
한 번 잘못된 추론 → 이후 모든 단계 오염
(선형 경로의 구조적 취약점)
[ToT의 해결]
여러 후보 Thought 동시 생성 (분기)
LLM 스스로 "이 경로가 올바른 방향인가?" 평가
(자기 평가: Self-Evaluation)
유망하지 않은 경로 조기 가지치기 (Pruning)
계산 자원을 유망한 경로에 집중
복잡한 다단계 문제에서 정확도 비약적 향상
```
---
## 6. ToT의 한계
- **계산 비용**: Branch × Depth 만큼 LLM 호출 → CoT 대비 수십~수백 배 비용.
- **속도**: 실시간 응답 시스템에 부적합.
- **평가기 신뢰성**: "좋은 Thought" 판단 자체를 LLM이 하므로, 평가 오류 가능.
---
🔗 Knowledge Connections
- **Related Topics:** [[Chain-of-Thought (CoT, 사고 사슬)|Chain-of-Thought (CoT, 사고 사슬)]], [[ReAct (Reasoning + Acting)|ReAct (Reasoning + Acting)]], [[강화학습 (Reinforcement Learning)|강화학습 (Reinforcement Learning)]], [[GRPO (Group Relative Policy Optimization)|GRPO (Group Relative Policy Optimization)]], [[Multi-Hop Reasoning (다중 홉 추론)|Multi-Hop Reasoning (다중 홉 추론)]], Self-Consistency (자기 일관성)
- **Projects/Contexts:** AI 추론 시스템
- **Contradictions/Notes:**
- ToT는 비용 대비 성능 트레이드오프가 극단적 → 실시간 서비스보다 오프라인 배치·연구용으로 적합.
- **신규 키워드**: `MCTS (몬테카를로 트리 탐색)`, `Self-Evaluation`, `Backtracking` → 탐색 큐 추가.