72 lines
4.1 KiB
Markdown
72 lines
4.1 KiB
Markdown
---
|
|
category: Unified
|
|
tags: [auto-consolidated, technical-documentation]
|
|
title: [[Markov Decision Process (MDP)|Markov Decision Process (MDP)]]
|
|
last_updated: 2026-05-02
|
|
---
|
|
|
|
# [[Markov Decision Process (MDP)|Markov Decision Process (MDP)]]
|
|
|
|
## 📌 Brief Summary
|
|
> 지식 요약 정보 추출 중...
|
|
|
|
---
|
|
|
|
> "과거는 묻지 마세요, 현재의 내 모습이 미래를 결정할 뿐입니다." 강화학습의 세계를 정의하는 수학적 모델로, 상태, 행동, 보상, 전이 확률 네 가지 요소로 이루어진 의사결정의 표준 프레임워크다.
|
|
|
|
---
|
|
|
|
> "세상의 모든 상호작용을 상태, 행동, 보상의 순환으로 수치화하고, 미래 가치를 극대화하는 최적의 시나리오를 설계하라" — 의사결정자가 불확실한 환경 속에서 최선의 정책(Policy)을 찾기 위해 사용하는 수학적 프레임워크.
|
|
|
|
## 📖 Core Content
|
|
본문 구조화 작업 중...
|
|
|
|
---
|
|
|
|
- **Markov Property**: 현재 상태($S_t$)만 알면 미래를 예측하는 데 충분하다는 가정. (과거의 모든 히스토리는 현재 상태에 이미 함축되어 있다고 믿음)
|
|
- **Five Components**:
|
|
- **$S$ ([[State|State]])**: 에이전트가 처한 상황.
|
|
- **$A$ (Action)**: 에이전트가 할 수 있는 선택.
|
|
- **$P$ (Transition Probability)**: 특정 행동 시 다음 상태로 갈 확률.
|
|
- **$R$ (Reward)**: 결과에 따른 보상.
|
|
- **$\gamma$ (Discount Factor)**: 미래의 보상을 현재 얼마의 가치로 칠 것인가.
|
|
- **Objective**: 누적 보상의 합(Return)을 최대화하는 최적의 정책($\pi$)을 찾는 것.
|
|
|
|
---
|
|
|
|
- **추출된 패턴:** "Sequential Decision Modeling" — 미래의 결과가 오직 현재의 상태와 선택에만 의존한다는 마르코프 성질(Markov Property)을 바탕으로, 매 순간의 선택이 가져올 장기적인 이득을 계산하고 최적화하는 동적 프로그래밍 패턴.
|
|
- **5대 구성 요소 (S, A, P, R, $\gamma$):**
|
|
- **[[State|State]] (S):** 에이전트가 관찰하는 환경의 상태.
|
|
- **Action (A):** 에이전트가 할 수 있는 행동의 집합.
|
|
- **Transition Probability (P):** 특정 행동 시 다음 상태로 넘어갈 확률.
|
|
- **Reward (R):** 행동의 결과로 받는 즉각적인 피드백.
|
|
- **Discount Factor ($\gamma$):** 미래 보상의 현재 가치를 결정하는 비율.
|
|
- **의의:** 강화학습 알고리즘(Q-Learning, Policy Gradient 등)이 무엇을 목표로 학습해야 하는지 정의하는 이론적 토대.
|
|
|
|
## ⚖️ Trade-offs & Caveats
|
|
- **과거 데이터와의 충돌:** 자동화 엔진에 의해 매핑된 지식으로, 추후 정밀 검증 필요.
|
|
- **정책 변화:** Graphics & Performance 분야의 자동 자산화 수행.
|
|
|
|
---
|
|
|
|
- 현실의 많은 문제는 '현재 상태'만으로 판단하기 불충분하다(예: 카드 게임에서 상대의 패를 모를 때). 이를 해결하기 위해 상태가 부분적으로만 관찰된다는 전제의 **[[POMDP|POMDP]]**(Partially Observable MDP)가 더 현실적인 모델로 사용되며, 이는 LLM 에이전트의 컨텍스트 추론 성능과도 직결된다.
|
|
|
|
---
|
|
|
|
- **과거 데이터와의 충돌:** 모든 환경이 MDP로 완벽히 설명 가능하다는 믿음에서 벗어나, 관측이 불완전한 현실 세계를 반영한 [[POMDP|POMDP]](Partially Observable MDP) 등 더 복잡한 모델로의 확장이 필수적이 됨.
|
|
- **정책 변화:** Antigravity 에이전트의 자율적 문제 해결 로직은 현재 상황을 MDP 상태로 정의하고, 각 도구 사용(Action)이 가져올 지식 강화 결과(Reward)를 예측하여 최적의 경로를 탐색함.
|
|
|
|
## 🔗 Knowledge Connections
|
|
- Raw Source: 00_Raw/2026-04-20/Markov Decision Process (MDP).md
|
|
---
|
|
|
|
---
|
|
|
|
- Related: [[Reinforcement Learning (RL)|Reinforcement Learning (RL)]] , [[Bellman-Equation|Bellman-Equation]]
|
|
- Complexity: POMDP (부분 관측 가능 MDP)
|
|
|
|
---
|
|
|
|
- [[Reinforcement-Learning|Reinforcement-Learning]], [[Markov-Chain-Monte-Carlo|Markov-Chain-Monte-Carlo]], Expected-Utility-Theory, [[Bellman-Equation|Bellman-Equation]]
|
|
- **Raw Source:** 10_Wiki/Topics/AI/Markov-Decision-Process-MDP.md
|