Files
2nd/10_Wiki/Topics/Reward Prediction Error (상태 예측 오류).md
T

73 lines
2.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
id: wiki-2026-0508-reward-prediction-error-상태-예측-오류
title: Reward Prediction Error (상태 예측 오류)
category: 10_Wiki/Topics
status: verified
canonical_id: self
aliases: [P-Reinforce-AUTO-RWPE-KOR]
duplicate_of: none
source_trust_level: A
confidence_score: 0.92
tags: [uncategorized]
raw_sources: []
last_reinforced: 2026-05-08
github_commit: pending
inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08)
---
# [[Reward Prediction Error (상태 예측 오류)]]
> [!NOTE]
> 본 내용은 **[[Reward Prediction Error]]** 문서에서 통합 관리되고 있습니다. 글로벌 지식 연결을 위해 영문 표준 명칭 문서를 사용합니다. 위 링크로 이동해 주시기 바랍니다. 🫡🐟
## 📌 한 줄 통찰 (The Karpathy Summary)
> 보상 예측 오류(RPE)는 "기대했던 보상 - 실제 받은 보상"의 차이로, 도파민 신호의 신경과학적 모델이자 TD 학습의 핵심 신호다.
## 📖 구조화된 지식 (Synthesized Content)
**추출된 패턴:** 신경과학(VTA 도파민 뉴런 활동)과 강화학습 이론(TD-error)이 같은 수학을 공유 — 이 수렴이 "뇌가 RL 기계인가"라는 질문의 출발점.
**세부 내용:**
- **수식**: δ = r + γV(s') - V(s).
- **양/음 RPE**: 기대보다 좋으면 양(보상 학습), 나쁘면 음(소거 학습).
- **도파민 가설(Schultz)**: VTA/SNc 도파민 뉴런이 RPE를 인코딩.
- **연관**: 중독·우울·파킨슨 같은 질환의 신경경제학적 모델 기반.
- **알고리즘**: Q-learning, SARSA, Actor-Critic의 핵심 업데이트 신호.
## 🤖 LLM 활용 힌트 (How to Use This Knowledge)
**언제 이 지식을 쓰는가:**
- *(TODO)*
**언제 쓰면 안 되는가:**
- *(TODO)*
## 🧪 검증 상태 (Validation)
- **정보 상태:** draft
- **출처 신뢰도:** A
- **검토 이유:** *(P-Reinforce Phase 1 자동 정규화. 본문 검증 필요.)*
## 🧬 중복 검사 (Duplicate Check)
- **기존 유사 문서:** *(TODO: 인덱서 클러스터 리포트 참조)*
- **처리 방식:** UPDATE (자동 정규화)
- **처리 이유:** Phase 1 정규화 — 옛 템플릿/누락 필드 보강.
## ⚠️ 모순 및 업데이트 (Contradictions & Updates)
- **과거 데이터와의 충돌:** 없음
- **정책 변화:** 없음
## 🔗 지식 연결 (Graph)
- **Parent:** [[10_Wiki/Topics]]
- **Related:** *(TODO: 최소 2개)*
- **Opposite / Trade-off:** *(TODO)*
- **Raw Source:** 직접 입력
## 🕓 변경 이력 (Changelog)
| 날짜 | 변경 내용 | 처리 방식 | 신뢰도 |
|------|-----------|-----------|--------|
| 2026-05-08 | P-Reinforce Phase 1 정규화 (frontmatter + 헤더 표준화) | UPDATE | A |