docs(wiki): Finalized P-Reinforce v3.0 wikification of all 118 out_wiki assets

This commit is contained in:
Antigravity Agent
2026-05-04 13:33:35 +09:00
parent 772d3e11e0
commit 972cd84dba
28 changed files with 1054 additions and 0 deletions
@@ -0,0 +1,36 @@
---
id: [[P-Reinforce|P-Reinforce]]-AUTO-COTR-001
category: Unified
confidence_score: 1.00
tags: [auto-reinforced, chain-of-thought, cot, reasoning, prompt-engineering, logic]
last_reinforced: 2026-05-04
---
# [[Chain-of-Thought (CoT) & Reasoning|Chain-of-Thought (CoT) & Reasoning]]
## 📌 한 줄 통찰 (The Karpathy Summary)
> "생각의 사슬: 답변을 내놓기 전 그 과정을 단계별로 서술하게 함으로써, 모델의 논리적 오류를 줄이고 복잡한 문제 해결 능력을 비약적으로 향상시키는 지능의 내면화 기법."
## 📖 구조화된 지식 (Synthesized Content)
사고 사슬(Chain-of-Thought, CoT)은 모델이 복잡한 문제를 해결할 때 중간 추론 단계를 명시적으로 생성하도록 유도하는 프롬프트 및 학습 기술입니다.
1. **핵심 원리**:
* **단계별 추론**: "단계별로 생각해보자(Let's think step by step)"와 같은 지시를 통해 모델이 바로 결론으로 점프하지 않고 논리적 흐름을 타게 만듭니다.
* **오류 검출**: 중간 단계가 기록되므로, 모델 스스로 또는 외부에서 어디서 논리가 꼬였는지 파악하고 수정하기 용이해집니다.
2. **주요 변형**:
* **Self-Consistency**: 여러 개의 서로 다른 추론 경로를 생성한 뒤, 가장 많이 나온 결론을 선택하여 정확도를 높입니다.
* **Least-to-Most Prompting**: 문제를 가장 쉬운 부분부터 해결하며 점진적으로 난이도를 높여갑니다.
3. **학습 모델 (Reasoning Models)**:
* 최근의 [[Reasoning Models|Reasoning Models]](o1, R1 등)은 프롬프트 기법을 넘어, 학습 단계부터 대규모 CoT를 생성하고 최적화하도록 강화학습을 거친 모델들입니다.
## ⚖️ Trade-offs & Caveats
* **토큰 소모**: 중간 과정을 모두 출력하므로 출력 토큰 수가 급격히 늘어나며 비용과 지연 시간이 증가합니다.
* **중간 정보 누락**: 너무 긴 CoT를 생성할 경우, 초기 설정된 목표를 잊어버리거나 엉뚱한 결론으로 흐르는 '추론 표류' 현상이 발생할 수 있습니다.
## 🔗 지식 연결 (Graph)
* **상위 개념**: [[Autonomous Agents & Workflows|Autonomous Agents & Workflows]], [[Reasoning Models|Reasoning Models]]
* **연관 기술**: [[ReAct|ReAct]], [[Self-Correction|Self-Correction]]
* **응용**: 복잡한 수학 문제 풀이, 코드 디버깅, 다단계 전략 수립
---
*Last updated: 2026-05-04*