[P-Reinforce] Substantial content added to BDNF/Bellman/Branded/Bayes/B-Tree (Batch 02)

2026-04-20 16:57:29 +09:00
parent f47e3a1186
commit 51e9e10b5a
6 changed files with 87 additions and 56 deletions
@@ -2,26 +2,26 @@
 id: P-REINFORCE-AI-BELLMAN
 category: "[[10_Wiki/💡 Topics/AI]]"
 confidence_score: 0.99
-tags: [Bellman Equation, RL, Dynamic Programming, MDP]
+tags: [Bellman Equation, Reinforcement Learning, Math, Dynamic Programming]
 last_reinforced: 2026-04-20
 ---

 # [[Bellman-Equation]] (벨만 방정식)

 ## 📌 한 줄 통찰 (The Karpathy Summary)
-> "오늘의 가치는 오늘의 보상과 내일의 기대 가치를 더한 것이다." 복잡한 미래를 현재의 시점으로 소환하는 마법의 재귀 공식이다.
+> "오늘의 보상(Step reward) + 내일의 가치(Future value) = 오늘의 가치." 시간의 흐름 속에 흩어진 가치를 하나로 묶어주는 재귀의 미학이다.

 ## 📖 구조화된 지식 (Synthesized Content)
- **Principle of Optimality (최적성의 원리)**:
-    - 리처드 벨만이 정의한 원칙. 전체 경로가 최적이면, 그 경로상의 어떤 부분 경로도 최적이어야 한다는 논리. 이를 통해 큰 문제를 작은 부분 문제로 나누는 동적 계획법(DP)이 탄생했다.
- **MDP (Markov Decision Process)**:
-    - 현재의 상태(State)가 미래의 확률을 결정한다는 가정 하에, 보상(Reward)을 극대화하는 정책(Policy)을 찾기 위한 수학적 프레임워크.
- **Q-Learning의 근간**:
-    - 상태-행동 가치 함수 $Q(s, a)$를 업데이트할 때 벨만 타겟(Bellman Target)을 사용하여 에이전트의 지능을 점진적으로 개선한다.
+- **Recursive Utility**:
+    - 현재 상태의 가치(Value)를 '즉각적 보상'과 '다음 상태의 기대 가치'의 합으로 정의한다. 이는 복잡한 미래 결정을 작은 현재 결정으로 쪼개어 풀 수 있게 한다.
+- **Dynamic Programming (동적 계획법)**:
+    - 벨만 방정식은 큰 문제를 작은 부분 문제로 나누어 푸는 근간이 된다. 바둑(AlphaGo)이나 체스 AI의 핵심 연산 원리다.
+- **Discount Factor (Gamma)**:
+    - 미래의 가치를 현재 시점으로 환산할 때 얼마나 깎을지(가중치)를 결정하는 변수. 1에 가까울수록 먼 미래를 보고, 0에 가까울수록 당장의 이익에 집중한다.

 ## ⚠️ 모순 및 업데이트 (RL Update)
- 벨만 방정식은 완벽한 환경(Full observability)을 가정할 때 환상적이지만, 정보가 누락된 현실(POMDP)에서는 근사치(Approximation)를 찾기 위한 딥러닝(DQN)과의 결합이 필수적이다.
+- 실제 세계(Model-free)에서는 다음 상태의 가치를 정확히 알 수 없다. 그래서 벨만 방정식을 기반으로 경험을 통해 가치를 추측해가는 'Q-Learning'이나 'Deep Q-Networks(DQN)'로 발전해왔다.

 ## 🔗 지식 연결 (Graph)
- Related: [[Reinforcement Learning]] , [[Deep-Learning-Basics]]
- Foundation: [[Information Theory]]
+- Related: [[Reinforcement Learning]] , [[Deep-Reinforcement-Learning]]
+- Foundation: [[Computational Theory & Math/Information Theory]]