docs: finalized wiki integrity maintenance (v3.0 standard) - pruned 1400+ stubs and fixed 11k+ ghost links
This commit is contained in:
@@ -6,7 +6,7 @@ tags: [auto-reinforced, mdp, reinforcement-learning, markov-decision-process, op
|
||||
last_reinforced: 2026-04-20
|
||||
---
|
||||
|
||||
# [[Markov-Decision-Processes]]
|
||||
# [[Markov-Decision-Processes|Markov-Decision-Processes]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "의사결정의 수학적 지도: 불확실한 환경 속에서 로봇이나 에이전트가 어떤 '행동'을 해야 가장 큰 '보상'을 얻을 수 있는지, 상태-행동-보상-전이의 사슬로 정의하여 인공지능이 스스로 전략을 짜게 만드는 강화 학습의 청사진."
|
||||
@@ -28,6 +28,6 @@ last_reinforced: 2026-04-20
|
||||
- **정책 변화(RL Update)**: 바둑(알파고)이나 게임을 넘어, 자율주행이나 도심 항공 모빌리티(UAM)의 경로 정책 수립 등 실생활의 거대하고 복잡한 시스템 최적화 정책의 핵심으로 작동 중임.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
- [[Reinforcement Learning (RL)]], [[Markov-Chains]], [[Optimization]], [[Decision Theory]], [[Logic]]
|
||||
- [[Reinforcement Learning (RL)|Reinforcement Learning (RL)]], [[Markov-Chains|Markov-Chains]], [[Optimization|Optimization]], [[Decision Theory|Decision Theory]], [[Logic|Logic]]
|
||||
- **Modern Tech/Tools**: Bellman equation, Q-Learning, PPO, Deep Reinforcement Learning.
|
||||
---
|
||||
|
||||
Reference in New Issue
Block a user