Files
2nd/01_Archive/2026-04-20/Chain-of-Thought (CoT, 사고 사슬).md
T

3.5 KiB

Chain-of-Thought (CoT, 사고 사슬 프롬프팅)

📌 Brief Summary

Chain-of-Thought(CoT)는 LLM에게 최종 답을 바로 출력하는 대신 중간 추론 단계(Reasoning Steps)를 명시적으로 생성하도록 유도하여 복잡한 수학·논리·다단계 추론 과제에서의 정확도를 높이는 프롬프팅 기법이다. "생각의 흔적"을 남기게 함으로써 모델이 더 정확한 답에 도달하게 한다.


📖 Core Content

1. CoT의 핵심 아이디어

[Zero-Shot 방식 (CoT 없음)]
  프롬프트: "철수는 사과 5개, 영희는 3개 더 많이 가짐. 
             둘이 합치면?"
  LLM 출력: "11개" ← 직접 출력, 오류 가능

[Zero-Shot CoT 방식 ("Let's think step by step")]
  프롬프트: "...합치면? Let's think step by step."
  LLM 출력:
    "철수: 5개
     영희: 5 + 3 = 8개
     합계: 5 + 8 = 13개"  ← 단계별 추론으로 정확도 향상

[Few-Shot CoT 방식]
  예제 (추론 과정 포함)를 먼저 제공 → 패턴 학습 후 적용

2. CoT 유형 분류

유형 방법 특징
Zero-Shot CoT "Let's think step by step" 추가 추가 예제 불필요, 간편
Few-Shot CoT 추론 과정 포함된 예제 2~8개 제공 더 높은 성능, 예제 준비 필요
Self-Consistency CoT를 여러 번 생성 → 다수결 정확도 ↑, 비용 ↑
Tree-of-Thought 추론을 트리 형태로 분기·탐색 복잡한 탐색 문제에 강점
ReAct 추론 + 외부 도구 실행 결합 실시간 정보 검색 연동 가능

3. 성능 향상 수치

모델 벤치마크 CoT 없음 CoT 적용 향상
PaLM 540B GSM8K (수학) 17.9% 56.9% +39.0%p
GPT-4 MATH 92.0%
DeepSeek-R1 AIME 2024 79.8% (GRPO+CoT)

4. CoT가 성능을 향상시키는 메커니즘 (인과관계)

[문제] 복잡한 다단계 계산 → 직접 출력 시 중간 연산 오류 발생

[CoT 적용]
  모델이 중간 단계를 토큰으로 명시 생성
        ↓
  각 단계의 오류를 다음 단계에서 컨텍스트로 활용 가능
        ↓
  사실상 모델의 "작업 메모리(Working Memory)" 역할
        ↓
  최종 답 생성 시 이전 추론 단계를 참조 → 오류 감소

5. GRPO와 CoT의 시너지

[GRPO 보상 함수]
  정답만 맞으면 보상 = 1.0
  정답 + 단계적 추론 포함 시 보상 = 1.2

[효과]
  모델이 더 많은 추론 단계 생성을 선호하도록 학습
  → CoT가 자발적으로 발생 (프롬프트 없이도)
  → DeepSeek-R1의 "Thinking" 토큰: 수백~수천 토큰의 내부 추론 발생

🔗 Knowledge Connections