2nd/01_Archive/2026-04-20/Tree-of-Thought (ToT, 사고 트리).md at 1df45e1e0e2f3c82bb614629e1c6b226e2e20fe9

bluemsi/2nd

Fork 0

Files

T

bluemsi 46fd50381e Initial Commit: Reinforced Knowledge Wiki v1.0 - Pure Origin

2026-04-20 19:23:45 +09:00

3.6 KiB

Raw Blame History

Tree-of-Thought (ToT, 사고 트리)

📌 Brief Summary

Tree-of-Thought(ToT)는 LLM이 문제를 선형 단계(Chain-of-Thought)가 아닌 트리 구조로 탐색하여, 각 중간 단계에서 여러 가능한 사고 경로를 분기(Branch)하고 평가·선택하는 추론 프레임워크다. 체스나 수학 퍼즐처럼 초반 선택이 최종 결과에 결정적 영향을 미치는 문제에서 Chain-of-Thought보다 월등히 높은 정확도를 보인다.

📖 Core Content

1. CoT vs ToT 구조 비교

[Chain-of-Thought (CoT)]
  S → T₁ → T₂ → T₃ → 답
  (선형 단일 경로 → 한 번 틀리면 복구 불가)

[Tree-of-Thought (ToT)]
        S
      / | \
    T₁  T₂  T₃   ← 단계 1: 3가지 사고 분기 생성
   /│\      │
  A  B  C   D    ← 단계 2: 각 분기에서 추가 확장
     ↓
  [평가] B가 가장 유망 → B만 계속 탐색
     ↓
  최종 답 (유망한 경로만 깊이 탐색)

2. ToT의 4가지 핵심 요소

요소	설명
Thought (사고 단위)	중간 추론 단계 (문장·방정식·계획 등)
Generator (생성기)	LLM이 현재 상태에서 여러 Thought 후보 생성
Evaluator (평가기)	각 Thought의 유망도 점수화 (LLM 또는 별도 함수)
Search (탐색 전략)	BFS(너비 우선) 또는 DFS(깊이 우선) 선택

3. 탐색 전략

전략	방법	적합 문제
BFS (너비 우선)	현재 레벨의 모든 Thought 평가 후 상위 K개 유지	레벨별 평가 가능한 단계적 문제
DFS (깊이 우선)	유망한 경로 깊게 탐색, 막히면 backtrack	해가 깊은 곳에 있는 탐색 문제
MCTS (몬테카를로 트리 탐색)	시뮬레이션 + 통계적 선택	게임·복잡한 의사결정

4. 성능 수치

벤치마크	IO (직접 출력)	CoT	ToT	ToT 향상
Game of 24 (수식 퍼즐)	7.3%	4.0%	74%	+67%p
Creative Writing	—	—	+평가점수 향상	창의성+논리 균형
Mini Crosswords	0%	3.7%	20%	+16%p

5. ToT 정확도 향상의 인과관계

[CoT의 한계]
  한 번 잘못된 추론 → 이후 모든 단계 오염
  (선형 경로의 구조적 취약점)
        ↓
[ToT의 해결]
  여러 후보 Thought 동시 생성 (분기)
        ↓
  LLM 스스로 "이 경로가 올바른 방향인가?" 평가
  (자기 평가: Self-Evaluation)
        ↓
  유망하지 않은 경로 조기 가지치기 (Pruning)
        ↓
  계산 자원을 유망한 경로에 집중
        ↓
  복잡한 다단계 문제에서 정확도 비약적 향상

6. ToT의 한계

계산 비용: Branch × Depth 만큼 LLM 호출 → CoT 대비 수십~수백 배 비용.
속도: 실시간 응답 시스템에 부적합.
평가기 신뢰성: "좋은 Thought" 판단 자체를 LLM이 하므로, 평가 오류 가능.

🔗 Knowledge Connections

Related Topics: Chain-of-Thought (CoT, 사고 사슬), ReAct (Reasoning + Acting), 강화학습 (Reinforcement Learning), GRPO (Group Relative Policy Optimization), Multi-Hop Reasoning (다중 홉 추론), Self-Consistency (자기 일관성)
Projects/Contexts: AI 추론 시스템
Contradictions/Notes:
- ToT는 비용 대비 성능 트레이드오프가 극단적 → 실시간 서비스보다 오프라인 배치·연구용으로 적합.
- 신규 키워드: MCTS (몬테카를로 트리 탐색), Self-Evaluation, Backtracking → 탐색 큐 추가.

3.6 KiB Raw Blame History Unescape Escape