feat: complete wikification of War Commander batch 1&2 and final grey dot cleanup

This commit is contained in:
2026-04-27 18:58:22 +09:00
parent 3424166ea2
commit 6b86b0da4c
2706 changed files with 9074 additions and 7273 deletions
@@ -1,12 +1,12 @@
---
id: RL-MDP-001
category: "[[10_Wiki/💡 Topics/AI]]"
category: "10_Wiki/💡 Topics/AI"
confidence_score: 1.0
tags: [ai, reinforcement-learning, mdp, decision-making, bellman-equation, optimization]
last_reinforced: 2026-04-26
---
# [[Markov Decision Process (MDP, 마르코프 결정 과정)]]
# Markov Decision Process (MDP, 마르코프 결정 과정)
## 📌 한 줄 통찰 (The Karpathy Summary)
> "세상의 모든 상호작용을 상태, 행동, 보상의 순환으로 수치화하고, 미래 가치를 극대화하는 최적의 시나리오를 설계하라" — 의사결정자가 불확실한 환경 속에서 최선의 정책(Policy)을 찾기 위해 사용하는 수학적 프레임워크.
@@ -26,5 +26,5 @@ last_reinforced: 2026-04-26
- **정책 변화:** Antigravity 에이전트의 자율적 문제 해결 로직은 현재 상황을 MDP 상태로 정의하고, 각 도구 사용(Action)이 가져올 지식 강화 결과(Reward)를 예측하여 최적의 경로를 탐색함.
## 🔗 지식 연결 (Graph)
- [[Reinforcement-Learning]], [[Markov-Chain-Monte-Carlo]], [[Expected-Utility-Theory]], [[Bellman-Equation]]
- **Raw Source:** [[10_Wiki/Topics/AI/Markov-Decision-Process-MDP.md]]
- [[Reinforcement-Learning]], [[Markov-Chain-Monte-Carlo]], Expected-Utility-Theory, [[Bellman-Equation]]
- **Raw Source:** 10_Wiki/Topics/AI/Markov-Decision-Process-MDP.md