docs: finalized wiki integrity maintenance (v3.0 standard) - pruned 1400+ stubs and fixed 11k+ ghost links

This commit is contained in:
Antigravity Agent
2026-05-02 09:18:34 +09:00
parent c84dcb8371
commit 6445fcc05b
13150 changed files with 55394 additions and 100862 deletions
@@ -2,7 +2,7 @@
id: RL-MDP-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 1.0
tags: [ai, [[Reinforcement-Learning]], mdp, decision-making, [[Bellman-Equation]], [[Optimization]]]
tags: [ai, [[Reinforcement-Learning|Reinforcement-Learning]], mdp, decision-making, [[Bellman-Equation|Bellman-Equation]], [[Optimization|Optimization]]]
last_reinforced: 2026-04-26
---
@@ -14,7 +14,7 @@ last_reinforced: 2026-04-26
## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** "Sequential Decision Modeling" — 미래의 결과가 오직 현재의 상태와 선택에만 의존한다는 마르코프 성질(Markov Property)을 바탕으로, 매 순간의 선택이 가져올 장기적인 이득을 계산하고 최적화하는 동적 프로그래밍 패턴.
- **5대 구성 요소 (S, A, P, R, $\gamma$):**
- **[[State]] (S):** 에이전트가 관찰하는 환경의 상태.
- **[[State|State]] (S):** 에이전트가 관찰하는 환경의 상태.
- **Action (A):** 에이전트가 할 수 있는 행동의 집합.
- **Transition Probability (P):** 특정 행동 시 다음 상태로 넘어갈 확률.
- **Reward (R):** 행동의 결과로 받는 즉각적인 피드백.
@@ -22,9 +22,9 @@ last_reinforced: 2026-04-26
- **의의:** 강화학습 알고리즘(Q-Learning, Policy Gradient 등)이 무엇을 목표로 학습해야 하는지 정의하는 이론적 토대.
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 모든 환경이 MDP로 완벽히 설명 가능하다는 믿음에서 벗어나, 관측이 불완전한 현실 세계를 반영한 [[POMDP]](Partially Observable MDP) 등 더 복잡한 모델로의 확장이 필수적이 됨.
- **과거 데이터와의 충돌:** 모든 환경이 MDP로 완벽히 설명 가능하다는 믿음에서 벗어나, 관측이 불완전한 현실 세계를 반영한 [[POMDP|POMDP]](Partially Observable MDP) 등 더 복잡한 모델로의 확장이 필수적이 됨.
- **정책 변화:** Antigravity 에이전트의 자율적 문제 해결 로직은 현재 상황을 MDP 상태로 정의하고, 각 도구 사용(Action)이 가져올 지식 강화 결과(Reward)를 예측하여 최적의 경로를 탐색함.
## 🔗 지식 연결 (Graph)
- [[Reinforcement-Learning]], [[Markov-Chain-Monte-Carlo]], Expected-Utility-Theory, [[Bellman-Equation]]
- [[Reinforcement-Learning|Reinforcement-Learning]], [[Markov-Chain-Monte-Carlo|Markov-Chain-Monte-Carlo]], Expected-Utility-Theory, [[Bellman-Equation|Bellman-Equation]]
- **Raw Source:** 10_Wiki/Topics/AI/Markov-Decision-Process-MDP.md