bluemsi/2nd

Files

T

bluemsi 51e9e10b5a [P-Reinforce] Substantial content added to BDNF/Bellman/Branded/Bayes/B-Tree (Batch 02)

2026-04-20 16:57:29 +09:00

1.6 KiB

Raw Blame History

id, category, confidence_score, tags, last_reinforced

id

category

confidence_score

tags

last_reinforced

P-REINFORCE-AI-BELLMAN

10_Wiki/💡 Topics/AI

0.99

Bellman Equation

Reinforcement Learning

Math

Dynamic Programming

2026-04-20

Bellman-Equation (벨만 방정식)

📌 한 줄 통찰 (The Karpathy Summary)

"오늘의 보상(Step reward) + 내일의 가치(Future value) = 오늘의 가치." 시간의 흐름 속에 흩어진 가치를 하나로 묶어주는 재귀의 미학이다.

📖 구조화된 지식 (Synthesized Content)

Recursive Utility:
- 현재 상태의 가치(Value)를 '즉각적 보상'과 '다음 상태의 기대 가치'의 합으로 정의한다. 이는 복잡한 미래 결정을 작은 현재 결정으로 쪼개어 풀 수 있게 한다.
Dynamic Programming (동적 계획법):
- 벨만 방정식은 큰 문제를 작은 부분 문제로 나누어 푸는 근간이 된다. 바둑(AlphaGo)이나 체스 AI의 핵심 연산 원리다.
Discount Factor (Gamma):
- 미래의 가치를 현재 시점으로 환산할 때 얼마나 깎을지(가중치)를 결정하는 변수. 1에 가까울수록 먼 미래를 보고, 0에 가까울수록 당장의 이익에 집중한다.

⚠️ 모순 및 업데이트 (RL Update)

실제 세계(Model-free)에서는 다음 상태의 가치를 정확히 알 수 없다. 그래서 벨만 방정식을 기반으로 경험을 통해 가치를 추측해가는 'Q-Learning'이나 'Deep Q-Networks(DQN)'로 발전해왔다.

🔗 지식 연결 (Graph)

Related: Reinforcement Learning , Deep-Reinforcement-Learning
Foundation: Computational Theory & Math/Information Theory