28 lines
1.5 KiB
Markdown
28 lines
1.5 KiB
Markdown
---
|
|
id: [[P-Reinforce|P-Reinforce]]-AI-BELLMAN
|
|
category: Unified
|
|
confidence_score: 1.0
|
|
tags: [[Bellman Equation|[Bellman Equation]], Reinforcement Learning, Dynamic Programming, MDP]
|
|
last_reinforced: 2026-04-20
|
|
---
|
|
|
|
# [[Bellman-Equation|Bellman-Equation]] (벨만 방정식)
|
|
|
|
## 📌 한 줄 통찰 (The Karpathy Summary)
|
|
> "오늘의 선택은 내일의 가치를 품고 있다." 현재 상태의 가치를 '현재 받는 보상'과 '다음 상태의 기대 가치'의 합으로 정의하는 강화학습과 동적 계획법의 수학적 초석이다.
|
|
|
|
## 📖 구조화된 지식 (Synthesized Content)
|
|
- **Recursive Structure**:
|
|
- 복잡한 미래의 합을 현재와 바로 다음 단계의 관계로 쪼갬으로써, 거대한 의사결정 문제를 계산 가능한 단위로 분해한다.
|
|
- **[[State|State]]-Value Function (V)**:
|
|
- 특정 상태에 있는 것이 장기적으로 볼 때 얼마나 좋은지 수치화한다.
|
|
- **Action-Value Function (Q)**:
|
|
- 특정 상태에서 특정 행동을 하는 것이 얼마나 좋은지 수치화하며, 이는 Q-Learning의 핵심이 된다.
|
|
|
|
## ⚠️ 모순 및 업데이트 (RL Update)
|
|
- 벨만 방정식은 환경의 변화를 완벽히 안다는 가정하에 작동한다. 실제 세상처럼 환경이 불투명할 때는 근사치(Approximation)를 사용하는 Deep Q-Network(DQN) 등이 대안으로 사용된다.
|
|
|
|
## 🔗 지식 연결 (Graph)
|
|
- Related: [[DQN|DQN]] , [[Reinforcement-Learning|Reinforcement-Learning]]
|
|
- Foundation: Computational Theory & Math/Information Theory
|