id: Q-LEARN-001 category: Dev confidence_score: 1.0 tags: Reinforcement-Learning, ai, q-learning, Bellman-Equation, Optimization] last_reinforced: 2026-04-26

Q-Learning Foundations (Q-러닝 기초)

"어떤 상태에서 어떤 행동이 가장 가치 있는지 스스로 깨닫게 하라" — 환경과의 상호작용을 통해 각 '상태-행동' 쌍에 대한 기대 보상값(Q-value)을 반복적으로 업데이트하여 최적의 정책을 찾아내는 강화학습 알고리즘.

추출된 패턴: 현재의 보상과 미래의 기대 보상을 벨만 방정식(Bellman Equation)으로 연결하여, 시간이 지남에 따라 에이전트의 의사결정 품질을 향상시키는 가치 반복(Value Iteration) 패턴.
세부 내용:
- Q-Table: 모든 상태(State)와 행동(Action) 조합에 대한 가치를 저장하는 표.
- Temporal Difference (TD): 현재 예측한 Q값과 실제 관측된 보상(및 다음 상태의 예측값) 사이의 차이를 이용해 가중치를 수정.
- Exploration vs Exploitation: 무작위 행동($\epsilon$-greedy 등)을 통해 새로운 경로를 탐색할지, 이미 알고 있는 최적의 행동을 할지 결정.
- Discount Factor (\gamma): 미래 보상의 가치를 현재 시점에서 얼마나 중요하게 여길지 결정하는 상수.

과거 데이터와의 충돌: 거대한 상태 공간에서 Q-Table을 유지하는 것이 불가능해지자, 신경망을 통해 Q값을 근사하는 DQN(Deep Q-Network)으로 진화함.
정책 변화: Skybound 프로젝트의 일반 적 유닛 AI는 가벼운 Q-Learning 기반 로직을 사용하여 플레이어의 공격 패턴에 맞춰 회피 확률을 조절함.

Reinforcement-Learning, Temporal-Difference-Learning, Deep-Q-Networks, Bellman-Equation
Raw Source: 10_Wiki/Topics/AI/Q-Learning Foundations.md