[G1-Sync] Manual knowledge update
This commit is contained in:
@@ -1,8 +1,8 @@
|
||||
---
|
||||
id: P-REINFORCE-AUTO-CCOT-001
|
||||
id: [[P-Reinforce]]-AUTO-CCOT-001
|
||||
category: "10_Wiki/💡 Topics/AI"
|
||||
confidence_score: 0.98
|
||||
tags: [auto-reinforced, chain-of-thought, cot, prompt-engineering, llm, reasoning]
|
||||
tags: [auto-reinforced, chain-of-thought, cot, [[Prompt-Engineering]], llm, [[Reasoning]]]
|
||||
last_reinforced: 2026-04-20
|
||||
---
|
||||
|
||||
@@ -18,7 +18,7 @@ last_reinforced: 2026-04-20
|
||||
* **Zero-shot CoT**: 프롬프트 끝에 "차근차근 생각해보자(Let's think step by step)"라는 마법의 구를 추가하는 것만으로 추론 성능이 비약적으로 상승.
|
||||
* **Few-shot CoT**: 문제 풀이 과정을 보여주는 예시를 몇 개 제공하여 모델이 그 추론 흐름을 모방하게 함.
|
||||
2. **왜 효과적인가?**:
|
||||
* 모델이 다음 토큰을 예측할 때, 앞서 적은 자신의 추론 과정이 '작업 기억(Working Memory)' 역할을 수행하여 최종 정답 도출의 확률적 정확도를 높임.
|
||||
* 모델이 다음 토큰을 예측할 때, 앞서 적은 자신의 추론 과정이 '작업 기억(Working [[memory]])' 역할을 수행하여 최종 정답 도출의 확률적 정확도를 높임.
|
||||
|
||||
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
|
||||
- **과거 데이터와의 충돌**: 초기 모델 정책은 단순히 데이터 학습량만 늘리는 정책(Scaling Law)에 집중했으나, 현대 정책은 모델의 내부 연산 비중만큼이나 '출력되는 추론 과정의 양과 질 정책'이 지능 발현의 핵심임을 인정함(RL Update).
|
||||
@@ -26,5 +26,5 @@ last_reinforced: 2026-04-20
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
- [[Reasoning]], [[Prompt-Engineering]], [[Automated-Reasoning]], [[Search-Optimization]], [[Knowledge-Representation-in-AI]]
|
||||
- **Modern Tech/Tools**: OpenAI o1 (Strawberry), Chain of Thought prompting, Self-consistency decoding.
|
||||
- **Modern Tech/Tools**: OpenAI o1 (Strawberry), Chain of Thought [[prompt]]ing, Self-consistency decoding.
|
||||
---
|
||||
|
||||
Reference in New Issue
Block a user