bluemsi/2nd

Files

T

bluemsi 6b86b0da4c feat: complete wikification of War Commander batch 1&2 and final grey dot cleanup

2026-04-27 18:58:22 +09:00

2.3 KiB

Raw Blame History

id, category, confidence_score, tags, last_reinforced

id

category

confidence_score

tags

last_reinforced

P-REINFORCE-AUTO-CCOT-001

10_Wiki/💡 Topics/AI

0.98

auto-reinforced

chain-of-thought

cot

prompt-engineering

llm

reasoning

2026-04-20

Chain-of-Thought (CoT 사고 사슬)

📌 한 줄 통찰 (The Karpathy Summary)

"생각의 과정을 말하게 하라: AI에게 정답만 툭 던지라고 하지 않고, 문제를 단계별로 풀어나가는 중간 추론 과정을 텍스트로 적게 함으로써 복잡한 논리 문제의 정답률을 드라마틱하게 끌어올리는 인지적 증폭 장치."

📖 구조화된 지식 (Synthesized Content)

사고 사슬(Chain-of-Thought, CoT)은 거대 언어 모델(LLM)의 추론 능력을 극대화하기 위해 '단계별 생각(Step-by-step reasoning)'을 유도하는 기법입니다.

핵심 메커니즘:
- Zero-shot CoT: 프롬프트 끝에 "차근차근 생각해보자(Let's think step by step)"라는 마법의 구를 추가하는 것만으로 추론 성능이 비약적으로 상승.
- Few-shot CoT: 문제 풀이 과정을 보여주는 예시를 몇 개 제공하여 모델이 그 추론 흐름을 모방하게 함.
왜 효과적인가?:
- 모델이 다음 토큰을 예측할 때, 앞서 적은 자신의 추론 과정이 '작업 기억(Working Memory)' 역할을 수행하여 최종 정답 도출의 확률적 정확도를 높임.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

과거 데이터와의 충돌: 초기 모델 정책은 단순히 데이터 학습량만 늘리는 정책(Scaling Law)에 집중했으나, 현대 정책은 모델의 내부 연산 비중만큼이나 '출력되는 추론 과정의 양과 질 정책'이 지능 발현의 핵심임을 인정함(RL Update).
정책 변화(RL Update): 사용자가 추론 과정을 보는 정책(Open CoT)을 넘어, 모델 내부에서만 추론을 수행하고 결과만 내놓는 '잠재적 CoT 정책'이 OpenAI의 o1 모델 등을 통해 구현되어 성능과 사용성을 모두 잡는 방향으로 진화함.

🔗 지식 연결 (Graph)

Reasoning, Prompt-Engineering, Automated-Reasoning, Search-Optimization, Knowledge-Representation-in-AI
Modern Tech/Tools: OpenAI o1 (Strawberry), Chain of Thought prompting, Self-consistency decoding.