docs: finalize P-Reinforce wikification and cross-post topics to domain categories

This commit is contained in:
Antigravity Agent
2026-05-01 19:24:16 +09:00
parent 834c3c6d3f
commit e56d8c7cf9
1657 changed files with 48005 additions and 858 deletions
@@ -0,0 +1,27 @@
---
id: [[P-Reinforce]]-AI-COT
category: "10_Wiki/💡 Topics/AI"
confidence_score: 0.99
tags: [LLM, Chain-of-Thought, CoT, Inference, [[Search]]]
last_reinforced: 2026-04-20
---
# Chain-of-Thought (사고의 사슬 CoT)
## 📌 한 줄 통찰 (The Karpathy Summary)
> 거대 언어 모델에게 "생각해 봐"라고 한마디 하는 것만으로도, 문제를 단계적으로 분해하여 정답 도출 가능성을 비약적으로 높이는 추론의 기적이다.
## 📖 구조화된 지식 (Synthesized Content)
- **Step-by-Step [[Reasoning]]**:
- 질문에 바로 답하지 않고, 중간 과정(Rationales)을 텍스트로 먼저 생성하게 유도함으로써 모델이 자신의 이전 출력을 다음 추론의 근거로 활용하게 하는 기법.
- **Zero-shot CoT**:
- 프롬프트 끝에 "Let's think step by step"이라는 문구만 추가해도 상식 추론과 수학 문제 해결 능력이 폭발적으로 증가한다.
- **Self-Consistency**:
- 여러 개의 CoT 경로를 생성하게 하여 가장 공통적으로 도출된 결론을 정답으로 선택하는 기법.
## ⚠️ 모순 및 업데이트 (RL Update)
- CoT는 항상 유리하지 않다. 단순 사실 확인 문제에서는 오히려 불필요한 텍스트 생성으로 인해 에러(Hallucination)가 발생할 확률이 있다. 최근에는 이를 고도화한 `Tree-of-Thoughts (ToT)` 또는 `OpenAI o1`처럼 내부적으로 강화학습을 통해 최적의 사고 경로를 찾는 모델로 진화 중이다.
## 🔗 지식 연결 (Graph)
- Related: [[Best-of-N-Sampling]] , [[Automated-Reasoning]]
- Foundation: [[Information Theory]]