Files
2nd/01_Archive/2026-04-20/Tree-of-Thought (ToT, 사고 트리).md

3.9 KiB
Raw Permalink Blame History

Tree-of-Thought (ToT, 사고 트리)

📌 Brief Summary

Tree-of-Thought(ToT)는 LLM이 문제를 선형 단계(Chain-of-Thought)가 아닌 트리 구조로 탐색하여, 각 중간 단계에서 여러 가능한 사고 경로를 분기(Branch)하고 평가·선택하는 추론 프레임워크다. 체스나 수학 퍼즐처럼 초반 선택이 최종 결과에 결정적 영향을 미치는 문제에서 Chain-of-Thought보다 월등히 높은 정확도를 보인다.


📖 Core Content

1. CoT vs ToT 구조 비교

[Chain-of-Thought (CoT)]
  S → T₁ → T₂ → T₃ → 답
  (선형 단일 경로 → 한 번 틀리면 복구 불가)

[Tree-of-Thought (ToT)]
        S
      / | \
    T₁  T₂  T₃   ← 단계 1: 3가지 사고 분기 생성
   /│\      │
  A  B  C   D    ← 단계 2: 각 분기에서 추가 확장
     ↓
  [평가] B가 가장 유망 → B만 계속 탐색
     ↓
  최종 답 (유망한 경로만 깊이 탐색)

2. ToT의 4가지 핵심 요소

요소 설명
Thought (사고 단위) 중간 추론 단계 (문장·방정식·계획 등)
Generator (생성기) LLM이 현재 상태에서 여러 Thought 후보 생성
Evaluator (평가기) 각 Thought의 유망도 점수화 (LLM 또는 별도 함수)
Search (탐색 전략) BFS(너비 우선) 또는 DFS(깊이 우선) 선택

3. 탐색 전략

전략 방법 적합 문제
BFS (너비 우선) 현재 레벨의 모든 Thought 평가 후 상위 K개 유지 레벨별 평가 가능한 단계적 문제
DFS (깊이 우선) 유망한 경로 깊게 탐색, 막히면 backtrack 해가 깊은 곳에 있는 탐색 문제
MCTS (몬테카를로 트리 탐색) 시뮬레이션 + 통계적 선택 게임·복잡한 의사결정

4. 성능 수치

벤치마크 IO (직접 출력) CoT ToT ToT 향상
Game of 24 (수식 퍼즐) 7.3% 4.0% 74% +67%p
Creative Writing +평가점수 향상 창의성+논리 균형
Mini Crosswords 0% 3.7% 20% +16%p

5. ToT 정확도 향상의 인과관계

[CoT의 한계]
  한 번 잘못된 추론 → 이후 모든 단계 오염
  (선형 경로의 구조적 취약점)
        ↓
[ToT의 해결]
  여러 후보 Thought 동시 생성 (분기)
        ↓
  LLM 스스로 "이 경로가 올바른 방향인가?" 평가
  (자기 평가: Self-Evaluation)
        ↓
  유망하지 않은 경로 조기 가지치기 (Pruning)
        ↓
  계산 자원을 유망한 경로에 집중
        ↓
  복잡한 다단계 문제에서 정확도 비약적 향상

6. ToT의 한계

  • 계산 비용: Branch × Depth 만큼 LLM 호출 → CoT 대비 수십~수백 배 비용.
  • 속도: 실시간 응답 시스템에 부적합.
  • 평가기 신뢰성: "좋은 Thought" 판단 자체를 LLM이 하므로, 평가 오류 가능.

🔗 Knowledge Connections