2.4 KiB
2.4 KiB
id, category, confidence_score, tags, last_reinforced
| id | category | confidence_score | tags | last_reinforced | ||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| RL-MDP-001 | Unified | 1.0 |
|
2026-04-26 |
Markov Decision Process (MDP, 마르코프 결정 과정)
📌 한 줄 통찰 (The Karpathy Summary)
"세상의 모든 상호작용을 상태, 행동, 보상의 순환으로 수치화하고, 미래 가치를 극대화하는 최적의 시나리오를 설계하라" — 의사결정자가 불확실한 환경 속에서 최선의 정책(Policy)을 찾기 위해 사용하는 수학적 프레임워크.
📖 구조화된 지식 (Synthesized Content)
- 추출된 패턴: "Sequential Decision Modeling" — 미래의 결과가 오직 현재의 상태와 선택에만 의존한다는 마르코프 성질(Markov Property)을 바탕으로, 매 순간의 선택이 가져올 장기적인 이득을 계산하고 최적화하는 동적 프로그래밍 패턴.
- 5대 구성 요소 (S, A, P, R,
\gamma):- State (S): 에이전트가 관찰하는 환경의 상태.
- Action (A): 에이전트가 할 수 있는 행동의 집합.
- Transition Probability (P): 특정 행동 시 다음 상태로 넘어갈 확률.
- Reward (R): 행동의 결과로 받는 즉각적인 피드백.
- Discount Factor (
\gamma): 미래 보상의 현재 가치를 결정하는 비율.
- 의의: 강화학습 알고리즘(Q-Learning, Policy Gradient 등)이 무엇을 목표로 학습해야 하는지 정의하는 이론적 토대.
⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- 과거 데이터와의 충돌: 모든 환경이 MDP로 완벽히 설명 가능하다는 믿음에서 벗어나, 관측이 불완전한 현실 세계를 반영한 POMDP(Partially Observable MDP) 등 더 복잡한 모델로의 확장이 필수적이 됨.
- 정책 변화: Antigravity 에이전트의 자율적 문제 해결 로직은 현재 상황을 MDP 상태로 정의하고, 각 도구 사용(Action)이 가져올 지식 강화 결과(Reward)를 예측하여 최적의 경로를 탐색함.
🔗 지식 연결 (Graph)
- Reinforcement-Learning, Markov-Chain-Monte-Carlo, Expected-Utility-Theory, Bellman-Equation
- Raw Source: 10_Wiki/Topics/AI/Markov-Decision-Process-MDP.md