2.5 KiB
2.5 KiB
id: P-Reinforce-AUTO-COTR-001 category: Unified confidence_score: 1.00 tags: [auto-reinforced, chain-of-thought, cot, reasoning, prompt-engineering, logic] last_reinforced: 2026-05-04
Chain-of-Thought (CoT) & Reasoning
📌 한 줄 통찰 (The Karpathy Summary)
"생각의 사슬: 답변을 내놓기 전 그 과정을 단계별로 서술하게 함으로써, 모델의 논리적 오류를 줄이고 복잡한 문제 해결 능력을 비약적으로 향상시키는 지능의 내면화 기법."
📖 구조화된 지식 (Synthesized Content)
사고 사슬(Chain-of-Thought, CoT)은 모델이 복잡한 문제를 해결할 때 중간 추론 단계를 명시적으로 생성하도록 유도하는 프롬프트 및 학습 기술입니다.
- 핵심 원리:
- 단계별 추론: "단계별로 생각해보자(Let's think step by step)"와 같은 지시를 통해 모델이 바로 결론으로 점프하지 않고 논리적 흐름을 타게 만듭니다.
- 오류 검출: 중간 단계가 기록되므로, 모델 스스로 또는 외부에서 어디서 논리가 꼬였는지 파악하고 수정하기 용이해집니다.
- 주요 변형:
- Self-Consistency: 여러 개의 서로 다른 추론 경로를 생성한 뒤, 가장 많이 나온 결론을 선택하여 정확도를 높입니다.
- Least-to-Most Prompting: 문제를 가장 쉬운 부분부터 해결하며 점진적으로 난이도를 높여갑니다.
- 학습 모델 (Reasoning Models):
- 최근의 Reasoning Models(o1, R1 등)은 프롬프트 기법을 넘어, 학습 단계부터 대규모 CoT를 생성하고 최적화하도록 강화학습을 거친 모델들입니다.
⚖️ Trade-offs & Caveats
- 토큰 소모: 중간 과정을 모두 출력하므로 출력 토큰 수가 급격히 늘어나며 비용과 지연 시간이 증가합니다.
- 중간 정보 누락: 너무 긴 CoT를 생성할 경우, 초기 설정된 목표를 잊어버리거나 엉뚱한 결론으로 흐르는 '추론 표류' 현상이 발생할 수 있습니다.
🔗 지식 연결 (Graph)
- 상위 개념: Autonomous Agents & Workflows, Reasoning Models
- 연관 기술: ReAct, Self-Correction
- 응용: 복잡한 수학 문제 풀이, 코드 디버깅, 다단계 전략 수립
Last updated: 2026-05-04