Wikify: Auto-consolidate redundant/similar knowledge base files
This commit is contained in:
@@ -0,0 +1,48 @@
|
||||
---
|
||||
category: Unified
|
||||
tags: [auto-consolidated, technical-documentation]
|
||||
title: [[Bellman-Equation|Bellman-Equation]] (벨만 방정식)
|
||||
last_updated: 2026-05-02
|
||||
---
|
||||
|
||||
# [[Bellman-Equation|Bellman-Equation]] (벨만 방정식)
|
||||
|
||||
## 📌 Brief Summary
|
||||
> "오늘의 보상(Step reward) + 내일의 가치(Future value) = 오늘의 가치." 시간의 흐름 속에 흩어진 가치를 하나로 묶어주는 재귀의 미학이다.
|
||||
|
||||
---
|
||||
|
||||
> "오늘의 선택은 내일의 가치를 품고 있다." 현재 상태의 가치를 '현재 받는 보상'과 '다음 상태의 기대 가치'의 합으로 정의하는 강화학습과 동적 계획법의 수학적 초석이다.
|
||||
|
||||
## 📖 Core Content
|
||||
- **Recursive Utility**:
|
||||
- 현재 상태의 가치(Value)를 '즉각적 보상'과 '다음 상태의 기대 가치'의 합으로 정의한다. 이는 복잡한 미래 결정을 작은 현재 결정으로 쪼개어 풀 수 있게 한다.
|
||||
- **Dynamic Programming (동적 계획법)**:
|
||||
- 벨만 방정식은 큰 문제를 작은 부분 문제로 나누어 푸는 근간이 된다. 바둑(AlphaGo)이나 체스 AI의 핵심 연산 원리다.
|
||||
- **Discount Factor (Gamma)**:
|
||||
- 미래의 가치를 현재 시점으로 환산할 때 얼마나 깎을지(가중치)를 결정하는 변수. 1에 가까울수록 먼 미래를 보고, 0에 가까울수록 당장의 이익에 집중한다.
|
||||
|
||||
---
|
||||
|
||||
- **Recursive Structure**:
|
||||
- 복잡한 미래의 합을 현재와 바로 다음 단계의 관계로 쪼갬으로써, 거대한 의사결정 문제를 계산 가능한 단위로 분해한다.
|
||||
- **[[State|State]]-Value Function (V)**:
|
||||
- 특정 상태에 있는 것이 장기적으로 볼 때 얼마나 좋은지 수치화한다.
|
||||
- **Action-Value Function (Q)**:
|
||||
- 특정 상태에서 특정 행동을 하는 것이 얼마나 좋은지 수치화하며, 이는 Q-Learning의 핵심이 된다.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
- 실제 세계(Model-free)에서는 다음 상태의 가치를 정확히 알 수 없다. 그래서 벨만 방정식을 기반으로 경험을 통해 가치를 추측해가는 'Q-Learning'이나 'Deep Q-Networks(DQN)'로 발전해왔다.
|
||||
|
||||
---
|
||||
|
||||
- 벨만 방정식은 환경의 변화를 완벽히 안다는 가정하에 작동한다. 실제 세상처럼 환경이 불투명할 때는 근사치(Approximation)를 사용하는 Deep Q-Network(DQN) 등이 대안으로 사용된다.
|
||||
|
||||
## 🔗 Knowledge Connections
|
||||
- Related: Reinforcement Learning , Deep-[[Reinforcement-Learning|Reinforcement-Learning]]
|
||||
- Foundation: Computational Theory & Math/Information Theory
|
||||
|
||||
---
|
||||
|
||||
- Related: [[DQN|DQN]] , [[Reinforcement-Learning|Reinforcement-Learning]]
|
||||
- Foundation: Computational Theory & Math/Information Theory
|
||||
Reference in New Issue
Block a user