feat: complete wikification of War Commander batch 1&2 and final grey dot cleanup
This commit is contained in:
@@ -1,12 +1,12 @@
|
||||
---
|
||||
id: RL-MDP-001
|
||||
category: "[[10_Wiki/💡 Topics/AI]]"
|
||||
category: "10_Wiki/💡 Topics/AI"
|
||||
confidence_score: 1.0
|
||||
tags: [ai, reinforcement-learning, mdp, decision-making, bellman-equation, optimization]
|
||||
last_reinforced: 2026-04-26
|
||||
---
|
||||
|
||||
# [[Markov Decision Process (MDP, 마르코프 결정 과정)]]
|
||||
# Markov Decision Process (MDP, 마르코프 결정 과정)
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "세상의 모든 상호작용을 상태, 행동, 보상의 순환으로 수치화하고, 미래 가치를 극대화하는 최적의 시나리오를 설계하라" — 의사결정자가 불확실한 환경 속에서 최선의 정책(Policy)을 찾기 위해 사용하는 수학적 프레임워크.
|
||||
@@ -26,5 +26,5 @@ last_reinforced: 2026-04-26
|
||||
- **정책 변화:** Antigravity 에이전트의 자율적 문제 해결 로직은 현재 상황을 MDP 상태로 정의하고, 각 도구 사용(Action)이 가져올 지식 강화 결과(Reward)를 예측하여 최적의 경로를 탐색함.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
- [[Reinforcement-Learning]], [[Markov-Chain-Monte-Carlo]], [[Expected-Utility-Theory]], [[Bellman-Equation]]
|
||||
- **Raw Source:** [[10_Wiki/Topics/AI/Markov-Decision-Process-MDP.md]]
|
||||
- [[Reinforcement-Learning]], [[Markov-Chain-Monte-Carlo]], Expected-Utility-Theory, [[Bellman-Equation]]
|
||||
- **Raw Source:** 10_Wiki/Topics/AI/Markov-Decision-Process-MDP.md
|
||||
|
||||
Reference in New Issue
Block a user