94 lines
3.9 KiB
Markdown
94 lines
3.9 KiB
Markdown
Chain-of-Thought (CoT, 사고 사슬 프롬프팅)
|
|
|
|
📌 Brief Summary
|
|
|
|
Chain-of-Thought(CoT)는 LLM에게 최종 답을 바로 출력하는 대신 중간 추론 단계(Reasoning Steps)를 명시적으로 생성하도록 유도하여 복잡한 수학·논리·다단계 추론 과제에서의 정확도를 높이는 프롬프팅 기법이다. "생각의 흔적"을 남기게 함으로써 모델이 더 정확한 답에 도달하게 한다.
|
|
|
|
---
|
|
|
|
📖 Core Content
|
|
|
|
## 1. CoT의 핵심 아이디어
|
|
|
|
```
|
|
[Zero-Shot 방식 (CoT 없음)]
|
|
프롬프트: "철수는 사과 5개, 영희는 3개 더 많이 가짐.
|
|
둘이 합치면?"
|
|
LLM 출력: "11개" ← 직접 출력, 오류 가능
|
|
|
|
[Zero-Shot CoT 방식 ("Let's think step by step")]
|
|
프롬프트: "...합치면? Let's think step by step."
|
|
LLM 출력:
|
|
"철수: 5개
|
|
영희: 5 + 3 = 8개
|
|
합계: 5 + 8 = 13개" ← 단계별 추론으로 정확도 향상
|
|
|
|
[Few-Shot CoT 방식]
|
|
예제 (추론 과정 포함)를 먼저 제공 → 패턴 학습 후 적용
|
|
```
|
|
|
|
---
|
|
|
|
## 2. CoT 유형 분류
|
|
|
|
| 유형 | 방법 | 특징 |
|
|
|------|------|------|
|
|
| **Zero-Shot CoT** | "Let's think step by step" 추가 | 추가 예제 불필요, 간편 |
|
|
| **Few-Shot CoT** | 추론 과정 포함된 예제 2~8개 제공 | 더 높은 성능, 예제 준비 필요 |
|
|
| **Self-Consistency** | CoT를 여러 번 생성 → 다수결 | 정확도 ↑, 비용 ↑ |
|
|
| **Tree-of-Thought** | 추론을 트리 형태로 분기·탐색 | 복잡한 탐색 문제에 강점 |
|
|
| **ReAct** | 추론 + 외부 도구 실행 결합 | 실시간 정보 검색 연동 가능 |
|
|
|
|
---
|
|
|
|
## 3. 성능 향상 수치
|
|
|
|
| 모델 | 벤치마크 | CoT 없음 | CoT 적용 | 향상 |
|
|
|------|---------|---------|---------|------|
|
|
| **PaLM 540B** | GSM8K (수학) | 17.9% | **56.9%** | +39.0%p |
|
|
| **GPT-4** | MATH | — | **92.0%** | — |
|
|
| **DeepSeek-R1** | AIME 2024 | — | **79.8%** | (GRPO+CoT) |
|
|
|
|
---
|
|
|
|
## 4. CoT가 성능을 향상시키는 메커니즘 (인과관계)
|
|
|
|
```
|
|
[문제] 복잡한 다단계 계산 → 직접 출력 시 중간 연산 오류 발생
|
|
|
|
[CoT 적용]
|
|
모델이 중간 단계를 토큰으로 명시 생성
|
|
↓
|
|
각 단계의 오류를 다음 단계에서 컨텍스트로 활용 가능
|
|
↓
|
|
사실상 모델의 "작업 메모리(Working Memory)" 역할
|
|
↓
|
|
최종 답 생성 시 이전 추론 단계를 참조 → 오류 감소
|
|
```
|
|
|
|
---
|
|
|
|
## 5. GRPO와 CoT의 시너지
|
|
|
|
```
|
|
[GRPO 보상 함수]
|
|
정답만 맞으면 보상 = 1.0
|
|
정답 + 단계적 추론 포함 시 보상 = 1.2
|
|
|
|
[효과]
|
|
모델이 더 많은 추론 단계 생성을 선호하도록 학습
|
|
→ CoT가 자발적으로 발생 (프롬프트 없이도)
|
|
→ DeepSeek-R1의 "Thinking" 토큰: 수백~수천 토큰의 내부 추론 발생
|
|
```
|
|
|
|
---
|
|
|
|
🔗 Knowledge Connections
|
|
|
|
- **Related Topics:** [[GRPO (Group Relative Policy Optimization)|GRPO (Group Relative Policy Optimization)]], [[강화학습 (Reinforcement Learning)|강화학습 (Reinforcement Learning)]], [[Multi-Hop Reasoning (다중 홉 추론)|Multi-Hop Reasoning (다중 홉 추론)]], [[LLM Hallucination (언어 모델 환각)|LLM Hallucination (언어 모델 환각)]], [[RAG (검색 증강 생성)|RAG (검색 증강 생성)]], [[GraphRAG (그래프 기반 검색 증강 생성)|GraphRAG (그래프 기반 검색 증강 생성)]], [[SFT (Supervised Fine-Tuning)|SFT (Supervised Fine-Tuning)]]
|
|
- **Projects/Contexts:** AI 추론 시스템
|
|
- **Contradictions/Notes:**
|
|
- CoT는 추론 토큰 수를 크게 늘림 → 추론 비용·지연 증가 → 실시간 시스템에서 트레이드오프.
|
|
- Self-Consistency (다수결 CoT)는 정확도↑이지만 비용 G배 증가 → 배포 환경에서 신중히 선택.
|
|
- **신규 키워드**: `Tree-of-Thought`, `ReAct (Reasoning + Acting)`, `Self-Consistency` → 탐색 큐 추가.
|