bluemsi/2nd

Files

T

bluemsi 6b86b0da4c feat: complete wikification of War Commander batch 1&2 and final grey dot cleanup

2026-04-27 18:58:22 +09:00

1.8 KiB

Raw Blame History

id, category, confidence_score, tags, last_reinforced

id

category

confidence_score

tags

last_reinforced

P-REINFORCE-AI-MARKOV

10_Wiki/💡 Topics/AI

0.99

AI

ReinforcementLearning

MDP

Mathematics

2026-04-20

Markov-Decision-Process (MDP) (마르코프 결정 과정)

📌 한 줄 통찰 (The Karpathy Summary)

"과거는 묻지 마세요, 현재의 내 모습이 미래를 결정할 뿐입니다." 강화학습의 세계를 정의하는 수학적 모델로, 상태, 행동, 보상, 전이 확률 네 가지 요소로 이루어진 의사결정의 표준 프레임워크다.

📖 구조화된 지식 (Synthesized Content)

Markov Property: 현재 상태(S_t)만 알면 미래를 예측하는 데 충분하다는 가정. (과거의 모든 히스토리는 현재 상태에 이미 함축되어 있다고 믿음)
Five Components:
- S (State): 에이전트가 처한 상황.
- A (Action): 에이전트가 할 수 있는 선택.
- P (Transition Probability): 특정 행동 시 다음 상태로 갈 확률.
- R (Reward): 결과에 따른 보상.
- \gamma (Discount Factor): 미래의 보상을 현재 얼마의 가치로 칠 것인가.
Objective: 누적 보상의 합(Return)을 최대화하는 최적의 정책(\pi)을 찾는 것.

⚠️ 모순 및 업데이트 (RL Update)

현실의 많은 문제는 '현재 상태'만으로 판단하기 불충분하다(예: 카드 게임에서 상대의 패를 모를 때). 이를 해결하기 위해 상태가 부분적으로만 관찰된다는 전제의 POMDP(Partially Observable MDP)가 더 현실적인 모델로 사용되며, 이는 LLM 에이전트의 컨텍스트 추론 성능과도 직결된다.

🔗 지식 연결 (Graph)

Related: Reinforcement Learning (RL) , Bellman-Equation
Complexity: POMDP (부분 관측 가능 MDP)