[G1-Sync] Manual knowledge update

2026-04-30 22:42:02 +09:00
parent 0bd4f19e38
commit c36c0644a1
4888 changed files with 18470 additions and 18602 deletions
@@ -1,8 +1,8 @@
 ---
-id: P-REINFORCE-AUTO-POMD-001
+id: [[P-Reinforce]]-AUTO-POMD-001
 category: "10_Wiki/💡 Topics/AI"
 confidence_score: 0.97
-tags: [auto-reinforced, pomdp, reinforcement-learning, uncertainty, belief-state, decision-making]
+tags: [auto-reinforced, pomdp, [[Reinforcement-Learning]], uncertainty, belief-[[State]], decision-making]
 last_reinforced: 2026-04-20
 ---

@@ -15,10 +15,10 @@ last_reinforced: 2026-04-20
 부분 관측 마르코프 결정 과정(POMDP)은 환경의 상태를 직접 알 수 없고 노이즈 섞인 관측만 가능한 의사결정 문제입니다.

 1.  **MDP와의 차이**:
-    *   **Observation (O)**: 상태 자체가 아닌, 눈에 보이는 데이터(힌트). (Noise와 연결)
+    *   **[[Observation]] (O)**: 상태 자체가 아닌, 눈에 보이는 데이터(힌트). ([[Noise]]와 연결)
    *   **Belief State (b)**: 관측값들을 종합해 현재 상태에 대해 추측한 '확률 분포'.
 2.  **왜 중요한가?**:
-    *   현실 세계(자율주행, 주식, 협상)는 대부분 상태가 완벽히 보이지 않는 POMDP 상황이며, 이를 수학적으로 풀 수 있어야만 진짜 쓸모 있는 인공지능이 탄생하기 때문임. (Reinforcement Learning (RL)의 심화)
+    *   현실 세계(자율주행, 주식, 협상)는 대부분 상태가 완벽히 보이지 않는 POMDP 상황이며, 이를 수학적으로 풀 수 있어야만 진짜 쓸모 있는 인공지능이 탄생하기 때문임. ([[Reinforcement Learning (RL)]]의 심화)

 ## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
 - **과거 데이터와의 충돌**: 과거에는 너무 복잡하여 계산이 불가능한 '이론적 정책'에 가까웠으나, 현대 정책은 신경망(RNN, Transformer) 정책이 과거의 기억을 벡터에 담음으로써 사실상의 비효율적 Belif State 정책 관리를 훌륭히 수행함(RL Update).
@@ -26,5 +26,5 @@ last_reinforced: 2026-04-20

 ## 🔗 지식 연결 (Graph)
 - [[Markov-Decision-Processes]], [[Reinforcement Learning (RL)]], [[Information-Entropy]], [[Logic]], [[Optimization]]
- **Modern Tech/Tools**: Kalman filters, Monte Carlo Localization, Deep Q-Networks with memory.
+- **Modern Tech/Tools**: Kalman filters, Monte Carlo Localization, Deep Q-Networks with [[memory]].
 ---