---
id: [[P-Reinforce|P-Reinforce]]-AUTO-RSNM-001
category: Unified
confidence_score: 1.00
tags: [auto-reinforced, reasoning-models, deepseek-r1, cot, lrm, inference-time-compute]
last_reinforced: 2026-05-04
---

# [[Reasoning Models|Reasoning Models]]

## 📌 한 줄 통찰 (The Karpathy Summary)
> "심사숙고하는 지능: 질문을 받자마자 답을 뱉는 본능적 반응을 넘어, 내부적으로 단계별 사고 사슬(CoT)을 생성하며 스스로 논리적 결함을 점검하고 최선의 해결책을 찾아내는 '시스템 2(System 2)'적 AI."

## 📖 구조화된 지식 (Synthesized Content)
추론 모델(Reasoning Models)은 복잡한 수학, 코딩, 논리 퍼즐 등을 해결하기 위해 설계된 모델로, 답변 생성 전 충분한 '생각의 시간(Inference-time Compute)'을 갖는 것이 특징입니다.

1.  **DeepSeek-R1 & LRM (Large Reasoning Models)**:
    *   **핵심**: 강화학습(RL)을 통해 모델이 명시적으로 사고 사슬(Chain-of-Thought)을 생성하도록 유도합니다.
    *   **사고 유형 분해**: 모델의 생각 과정은 주로 [추론(Reasoning)], [실행(Execution)], [전환(Transition)]의 세 가지 논리적 단계로 구성됩니다.
2.  **작동 원리**:
    *   **Inference-time Compute**: 더 많은 연산 자원을 추론 단계에 할당하여 답변의 정확도를 높입니다. (OpenAI o1, DeepSeek-R1 등)
    *   **Self-Correction**: 생각하는 과정에서 자신의 오류를 발견하면 "Wait, let me re-check..."와 같이 스스로 교정하며 논리를 전개합니다.
3.  **성과**:
    *   수학(AIME), 코딩(Codeforces) 등 고차원적인 지적 능력이 필요한 벤치마크에서 일반 LLM을 압도하는 성능을 보여줍니다.

## ⚖️ Trade-offs & Caveats
*   **지연 시간 (Latency)**: 최종 답변을 내놓기까지 수천~수만 토큰의 내부 사고를 거쳐야 하므로 일반 모델보다 훨씬 느립니다.
*   **VRAM 폭발**: 긴 사고 사슬(CoT)은 [[KV Cache|KV Cache]]를 급격히 소모하여 GPU 메모리 부족 현상을 일으킵니다. 이를 방지하기 위한 [[ThinKV|ThinKV]]와 같은 특화된 캐시 관리 기술이 필수적입니다.
*   **Overthinking**: 단순한 인사말이나 기초적인 정보 검색에도 무거운 추론 과정을 거치는 '과도한 생각'으로 자원을 낭비할 수 있습니다.

## 🔗 지식 연결 (Graph)
*   **상위 개념**: [[LLM Capabilities|LLM Capabilities]], [[Artificial General Intelligence (AGI)|AGI]]
*   **기반 기술**: [[Chain-of-Thought (CoT)|Chain-of-Thought (CoT)]], [[Reinforcement Learning (RL)|RL]]
*   **해결 기술**: [[KV Cache Compression|KV Cache Compression]], [[ThinKV|ThinKV]]

---
*Last updated: 2026-05-04*