[G1-Sync] Manual knowledge update
This commit is contained in:
@@ -1,5 +1,5 @@
|
||||
---
|
||||
id: P-REINFORCE-AI-MARKOV
|
||||
id: [[P-Reinforce]]-AI-MARKOV
|
||||
category: "10_Wiki/💡 Topics/AI"
|
||||
confidence_score: 0.99
|
||||
tags: [AI, ReinforcementLearning, MDP, Mathematics]
|
||||
@@ -14,7 +14,7 @@ last_reinforced: 2026-04-20
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
- **Markov Property**: 현재 상태($S_t$)만 알면 미래를 예측하는 데 충분하다는 가정. (과거의 모든 히스토리는 현재 상태에 이미 함축되어 있다고 믿음)
|
||||
- **Five Components**:
|
||||
- **$S$ (State)**: 에이전트가 처한 상황.
|
||||
- **$S$ ([[State]])**: 에이전트가 처한 상황.
|
||||
- **$A$ (Action)**: 에이전트가 할 수 있는 선택.
|
||||
- **$P$ (Transition Probability)**: 특정 행동 시 다음 상태로 갈 확률.
|
||||
- **$R$ (Reward)**: 결과에 따른 보상.
|
||||
@@ -22,7 +22,7 @@ last_reinforced: 2026-04-20
|
||||
- **Objective**: 누적 보상의 합(Return)을 최대화하는 최적의 정책($\pi$)을 찾는 것.
|
||||
|
||||
## ⚠️ 모순 및 업데이트 (RL Update)
|
||||
- 현실의 많은 문제는 '현재 상태'만으로 판단하기 불충분하다(예: 카드 게임에서 상대의 패를 모를 때). 이를 해결하기 위해 상태가 부분적으로만 관찰된다는 전제의 **POMDP**(Partially Observable MDP)가 더 현실적인 모델로 사용되며, 이는 LLM 에이전트의 컨텍스트 추론 성능과도 직결된다.
|
||||
- 현실의 많은 문제는 '현재 상태'만으로 판단하기 불충분하다(예: 카드 게임에서 상대의 패를 모를 때). 이를 해결하기 위해 상태가 부분적으로만 관찰된다는 전제의 **[[POMDP]]**(Partially Observable MDP)가 더 현실적인 모델로 사용되며, 이는 LLM 에이전트의 컨텍스트 추론 성능과도 직결된다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
- Related: [[Reinforcement Learning (RL)]] , [[Bellman-Equation]]
|
||||
|
||||
Reference in New Issue
Block a user