[G1-Sync] Manual knowledge update

2026-04-30 22:42:02 +09:00
parent 0bd4f19e38
commit c36c0644a1
4888 changed files with 18470 additions and 18602 deletions
@@ -2,7 +2,7 @@
 id: Q-LEARN-001
 category: "10_Wiki/💡 Topics/AI"
 confidence_score: 1.0
-tags: [reinforcement-learning, ai, q-learning, bellman-equation, optimization]
+tags: [[[Reinforcement-Learning]], ai, q-learning, [[Bellman-Equation]], [[Optimization]]]
 last_reinforced: 2026-04-26
 ---

@@ -12,11 +12,11 @@ last_reinforced: 2026-04-26
 > "어떤 상태에서 어떤 행동이 가장 가치 있는지 스스로 깨닫게 하라" — 환경과의 상호작용을 통해 각 '상태-행동' 쌍에 대한 기대 보상값(Q-value)을 반복적으로 업데이트하여 최적의 정책을 찾아내는 강화학습 알고리즘.

 ## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** 현재의 보상과 미래의 기대 보상을 벨만 방정식(Bellman Equation)으로 연결하여, 시간이 지남에 따라 에이전트의 의사결정 품질을 향상시키는 가치 반복(Value Iteration) 패턴.
+- **추출된 패턴:** 현재의 보상과 미래의 기대 보상을 벨만 방정식([[Bellman Equation]])으로 연결하여, 시간이 지남에 따라 에이전트의 의사결정 품질을 향상시키는 가치 반복(Value [[Iteration]]) 패턴.
 - **세부 내용:**
-    - **Q-Table:** 모든 상태(State)와 행동(Action) 조합에 대한 가치를 저장하는 표.
+    - **Q-Table:** 모든 상태([[State]])와 행동(Action) 조합에 대한 가치를 저장하는 표.
    - **Temporal Difference (TD):** 현재 예측한 Q값과 실제 관측된 보상(및 다음 상태의 예측값) 사이의 차이를 이용해 가중치를 수정.
-    - **Exploration vs Exploitation:** 무작위 행동($\epsilon$-greedy 등)을 통해 새로운 경로를 탐색할지, 이미 알고 있는 최적의 행동을 할지 결정.
+    - **[[Exploration vs Exploitation]]:** 무작위 행동($\epsilon$-greedy 등)을 통해 새로운 경로를 탐색할지, 이미 알고 있는 최적의 행동을 할지 결정.
    - **Discount Factor ($\gamma$):** 미래 보상의 가치를 현재 시점에서 얼마나 중요하게 여길지 결정하는 상수.

 ## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)