Files
2nd/10_Wiki/Topics/Reward Prediciton Error.md
T

73 lines
2.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
id: wiki-2026-0508-reward-prediciton-error
title: Reward Prediciton Error
category: 10_Wiki/Topics
status: verified
canonical_id: self
aliases: [P-Reinforce-AUTO-RWPE-TYPO]
duplicate_of: none
source_trust_level: A
confidence_score: 0.92
tags: [uncategorized]
raw_sources: []
last_reinforced: 2026-05-08
github_commit: pending
inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08)
---
# [[Reward Prediciton Error]]
> [!NOTE]
> 본 파일은 오타가 포함된 파일명으로, 본 내용은 **[[Reward Prediction Error]]** 문서에서 통합 관리되고 있습니다. 위 링크로 이동해 주시기 바랍니다. 🫡🐟
## 📌 한 줄 통찰 (The Karpathy Summary)
> 보상 예측 오류는 강화학습과 신경과학의 교차점에서 학습 신호를 통합 설명하는 핵심 개념이다.
## 📖 구조화된 지식 (Synthesized Content)
**추출된 패턴:** δ = r + γV(s') - V(s) 라는 동일 수식이 도파민 발화율과 가치함수 갱신 모두를 설명한다는 점이 "학습은 곧 RPE 최소화"라는 통합 가설의 근거.
**세부 내용:**
- 양의 RPE → 가치 함수 상향, 음의 RPE → 하향.
- 사람·동물에서 도파민 phasic burst가 RPE와 일치.
- TD-learning 알고리즘이 이 신호를 그대로 사용.
- 환경 비정상성(non-stationarity) 하에서는 학습률 조정 필요.
- LLM RLHF의 KL 페널티도 광의의 RPE 정규화로 볼 수 있음.
## 🤖 LLM 활용 힌트 (How to Use This Knowledge)
**언제 이 지식을 쓰는가:**
- *(TODO)*
**언제 쓰면 안 되는가:**
- *(TODO)*
## 🧪 검증 상태 (Validation)
- **정보 상태:** draft
- **출처 신뢰도:** A
- **검토 이유:** *(P-Reinforce Phase 1 자동 정규화. 본문 검증 필요.)*
## 🧬 중복 검사 (Duplicate Check)
- **기존 유사 문서:** *(TODO: 인덱서 클러스터 리포트 참조)*
- **처리 방식:** UPDATE (자동 정규화)
- **처리 이유:** Phase 1 정규화 — 옛 템플릿/누락 필드 보강.
## ⚠️ 모순 및 업데이트 (Contradictions & Updates)
- **과거 데이터와의 충돌:** 없음
- **정책 변화:** 없음
## 🔗 지식 연결 (Graph)
- **Parent:** [[10_Wiki/Topics]]
- **Related:** *(TODO: 최소 2개)*
- **Opposite / Trade-off:** *(TODO)*
- **Raw Source:** 직접 입력
## 🕓 변경 이력 (Changelog)
| 날짜 | 변경 내용 | 처리 방식 | 신뢰도 |
|------|-----------|-----------|--------|
| 2026-05-08 | P-Reinforce Phase 1 정규화 (frontmatter + 헤더 표준화) | UPDATE | A |