bluemsi/2nd

Files

T

Antigravity Agent 303b01b228 Wikify: Auto-consolidate redundant/similar knowledge base files

2026-05-02 23:59:27 +09:00

2.6 KiB

Raw Blame History

category, tags, title, last_updated

category

tags

title

last_updated

Unified

auto-consolidated

technical-documentation

Markov Decision Processes|Markov Decision Processes

2026-05-02

Markov Decision Processes

📌 Brief Summary

지식 요약 정보 추출 중...

"의사결정의 수학적 지도: 불확실한 환경 속에서 로봇이나 에이전트가 어떤 '행동'을 해야 가장 큰 '보상'을 얻을 수 있는지, 상태-행동-보상-전이의 사슬로 정의하여 인공지능이 스스로 전략을 짜게 만드는 강화 학습의 청사진."

📖 Core Content

본문 구조화 작업 중...

마르코프 결정 과정(MDP)은 의사결정 문제를 확률론적 최우선으로 모델링하는 수학적 프레임워크입니다.

5대 요소 (S, A, P, R, \gamma):
- State (S): 현재 상황.
- Action (A): 할 수 있는 행동.
- Transition Probability (P): 행동 후 다음 상태로 갈 확률.
- Reward (R): 행동의 결과로 받는 보상.
- Discount Factor (\gamma): 미래의 보상을 현재 가치로 얼마나 쳐줄 것인가.
왜 중요한가?:
- 인공지능이 단순히 데이터를 외우는 게 아니라, 복잡한 환경과 상호작용하며 '최적의 정책(Policy)'을 찾아가는 모든 강화 학습 알고리즘의 표준 이론이기 때문임. (Reinforcement Learning (RL)와 연결)

⚖️ Trade-offs & Caveats

과거 데이터와의 충돌: 자동화 엔진에 의해 매핑된 지식으로, 추후 정밀 검증 필요.
정책 변화: Graphics & Performance 분야의 자동 자산화 수행.

과거 데이터와의 충돌: 과거에는 환경의 모든 정보를 아는 정책(Full Observability)을 전제했으나, 현대 정책은 환경의 일부만 보이는 상황(POMDP) 정책에서도 최적의 수를 찾아내는 복합 추론 정책으로 진화함(RL Update).
정책 변화(RL Update): 바둑(알파고)이나 게임을 넘어, 자율주행이나 도심 항공 모빌리티(UAM)의 경로 정책 수립 등 실생활의 거대하고 복잡한 시스템 최적화 정책의 핵심으로 작동 중임.

🔗 Knowledge Connections

Raw Source: 00_Raw/2026-04-20/Markov Decision Processes.md

Reinforcement Learning (RL), Markov-Chains, Optimization, Decision Theory, Logic
Modern Tech/Tools: Bellman Equation, Q-Learning, PPO, Deep Reinforcement Learning.