[G1-Sync] Manual knowledge update
This commit is contained in:
@@ -2,7 +2,7 @@
|
||||
id: Q-LEARN-001
|
||||
category: "10_Wiki/💡 Topics/AI"
|
||||
confidence_score: 1.0
|
||||
tags: [reinforcement-learning, ai, q-learning, bellman-equation, optimization]
|
||||
tags: [[[Reinforcement-Learning]], ai, q-learning, [[Bellman-Equation]], [[Optimization]]]
|
||||
last_reinforced: 2026-04-26
|
||||
---
|
||||
|
||||
@@ -12,11 +12,11 @@ last_reinforced: 2026-04-26
|
||||
> "어떤 상태에서 어떤 행동이 가장 가치 있는지 스스로 깨닫게 하라" — 환경과의 상호작용을 통해 각 '상태-행동' 쌍에 대한 기대 보상값(Q-value)을 반복적으로 업데이트하여 최적의 정책을 찾아내는 강화학습 알고리즘.
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
- **추출된 패턴:** 현재의 보상과 미래의 기대 보상을 벨만 방정식(Bellman Equation)으로 연결하여, 시간이 지남에 따라 에이전트의 의사결정 품질을 향상시키는 가치 반복(Value Iteration) 패턴.
|
||||
- **추출된 패턴:** 현재의 보상과 미래의 기대 보상을 벨만 방정식([[Bellman Equation]])으로 연결하여, 시간이 지남에 따라 에이전트의 의사결정 품질을 향상시키는 가치 반복(Value [[Iteration]]) 패턴.
|
||||
- **세부 내용:**
|
||||
- **Q-Table:** 모든 상태(State)와 행동(Action) 조합에 대한 가치를 저장하는 표.
|
||||
- **Q-Table:** 모든 상태([[State]])와 행동(Action) 조합에 대한 가치를 저장하는 표.
|
||||
- **Temporal Difference (TD):** 현재 예측한 Q값과 실제 관측된 보상(및 다음 상태의 예측값) 사이의 차이를 이용해 가중치를 수정.
|
||||
- **Exploration vs Exploitation:** 무작위 행동($\epsilon$-greedy 등)을 통해 새로운 경로를 탐색할지, 이미 알고 있는 최적의 행동을 할지 결정.
|
||||
- **[[Exploration vs Exploitation]]:** 무작위 행동($\epsilon$-greedy 등)을 통해 새로운 경로를 탐색할지, 이미 알고 있는 최적의 행동을 할지 결정.
|
||||
- **Discount Factor ($\gamma$):** 미래 보상의 가치를 현재 시점에서 얼마나 중요하게 여길지 결정하는 상수.
|
||||
|
||||
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
|
||||
|
||||
Reference in New Issue
Block a user