29 lines
2.3 KiB
Markdown
29 lines
2.3 KiB
Markdown
---
|
|
id: Q-LEARN-001
|
|
category: Unified
|
|
confidence_score: 1.0
|
|
tags: [[Reinforcement-Learning|[Reinforcement-Learning]], ai, q-learning, [[Bellman-Equation|Bellman-Equation]], [[Optimization|Optimization]]]
|
|
last_reinforced: 2026-04-26
|
|
---
|
|
|
|
# Q-Learning Foundations (Q-러닝 기초)
|
|
|
|
## 📌 한 줄 통찰 (The Karpathy Summary)
|
|
> "어떤 상태에서 어떤 행동이 가장 가치 있는지 스스로 깨닫게 하라" — 환경과의 상호작용을 통해 각 '상태-행동' 쌍에 대한 기대 보상값(Q-value)을 반복적으로 업데이트하여 최적의 정책을 찾아내는 강화학습 알고리즘.
|
|
|
|
## 📖 구조화된 지식 (Synthesized Content)
|
|
- **추출된 패턴:** 현재의 보상과 미래의 기대 보상을 벨만 방정식([[Bellman Equation|Bellman Equation]])으로 연결하여, 시간이 지남에 따라 에이전트의 의사결정 품질을 향상시키는 가치 반복(Value [[Iteration|Iteration]]) 패턴.
|
|
- **세부 내용:**
|
|
- **Q-Table:** 모든 상태([[State|State]])와 행동(Action) 조합에 대한 가치를 저장하는 표.
|
|
- **Temporal Difference (TD):** 현재 예측한 Q값과 실제 관측된 보상(및 다음 상태의 예측값) 사이의 차이를 이용해 가중치를 수정.
|
|
- **[[Exploration vs Exploitation|Exploration vs Exploitation]]:** 무작위 행동($\epsilon$-greedy 등)을 통해 새로운 경로를 탐색할지, 이미 알고 있는 최적의 행동을 할지 결정.
|
|
- **Discount Factor ($\gamma$):** 미래 보상의 가치를 현재 시점에서 얼마나 중요하게 여길지 결정하는 상수.
|
|
|
|
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
|
|
- **과거 데이터와의 충돌:** 거대한 상태 공간에서 Q-Table을 유지하는 것이 불가능해지자, 신경망을 통해 Q값을 근사하는 DQN(Deep Q-Network)으로 진화함.
|
|
- **정책 변화:** Skybound 프로젝트의 일반 적 유닛 AI는 가벼운 Q-Learning 기반 로직을 사용하여 플레이어의 공격 패턴에 맞춰 회피 확률을 조절함.
|
|
|
|
## 🔗 지식 연결 (Graph)
|
|
- [[Reinforcement-Learning|Reinforcement-Learning]], [[Temporal-Difference-Learning|Temporal-Difference-Learning]], Deep-Q-Networks, [[Bellman-Equation|Bellman-Equation]]
|
|
- **Raw Source:** 10_Wiki/Topics/AI/Q-Learning Foundations.md
|