[G1-Sync] Manual knowledge update

2026-04-30 22:42:02 +09:00
parent 0bd4f19e38
commit c36c0644a1
4888 changed files with 18470 additions and 18602 deletions
@@ -1,8 +1,8 @@
 ---
-id: P-REINFORCE-AUTO-MMDP-001
+id: [[P-Reinforce]]-AUTO-MMDP-001
 category: "10_Wiki/💡 Topics/AI"
 confidence_score: 0.98
-tags: [auto-reinforced, mdp, reinforcement-learning, markov-decision-process, optimization, decision-making]
+tags: [auto-reinforced, mdp, [[Reinforcement-Learning]], markov-decision-process, [[Optimization]], decision-making]
 last_reinforced: 2026-04-20
 ---

@@ -15,19 +15,19 @@ last_reinforced: 2026-04-20
 마르코프 결정 과정(MDP)은 의사결정 문제를 확률론적 최우선으로 모델링하는 수학적 프레임워크입니다.

 1.  **5대 요소 (S, A, P, R, $\gamma$)**:
-    *   **State (S)**: 현재 상황.
+    *   **[[State]] (S)**: 현재 상황.
    *   **Action (A)**: 할 수 있는 행동.
    *   **Transition Probability (P)**: 행동 후 다음 상태로 갈 확률.
    *   **Reward (R)**: 행동의 결과로 받는 보상.
    *   **Discount Factor ($\gamma$)**: 미래의 보상을 현재 가치로 얼마나 쳐줄 것인가.
 2.  **왜 중요한가?**:
-    *   인공지능이 단순히 데이터를 외우는 게 아니라, 복잡한 환경과 상호작용하며 '최적의 정책(Policy)'을 찾아가는 모든 강화 학습 알고리즘의 표준 이론이기 때문임. (Reinforcement Learning (RL)와 연결)
+    *   인공지능이 단순히 데이터를 외우는 게 아니라, 복잡한 환경과 상호작용하며 '최적의 정책(Policy)'을 찾아가는 모든 강화 학습 알고리즘의 표준 이론이기 때문임. ([[Reinforcement Learning (RL)]]와 연결)

 ## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌**: 과거에는 환경의 모든 정보를 아는 정책(Full Observability)을 전제했으나, 현대 정책은 환경의 일부만 보이는 상황(POMDP) 정책에서도 최적의 수를 찾아내는 복합 추론 정책으로 진화함(RL Update).
+- **과거 데이터와의 충돌**: 과거에는 환경의 모든 정보를 아는 정책(Full Observability)을 전제했으나, 현대 정책은 환경의 일부만 보이는 상황([[POMDP]]) 정책에서도 최적의 수를 찾아내는 복합 추론 정책으로 진화함(RL Update).
 - **정책 변화(RL Update)**: 바둑(알파고)이나 게임을 넘어, 자율주행이나 도심 항공 모빌리티(UAM)의 경로 정책 수립 등 실생활의 거대하고 복잡한 시스템 최적화 정책의 핵심으로 작동 중임.

 ## 🔗 지식 연결 (Graph)
 - [[Reinforcement Learning (RL)]], [[Markov-Chains]], [[Optimization]], [[Decision Theory]], [[Logic]]
- **Modern Tech/Tools**: Bellman equation, Q-Learning, PPO, Deep Reinforcement Learning.
+- **Modern Tech/Tools**: [[Bellman Equation]], Q-Learning, PPO, Deep Reinforcement Learning.
 ---