feat: complete wikification of War Commander batch 1&2 and final grey dot cleanup

This commit is contained in:
2026-04-27 18:58:22 +09:00
parent 3424166ea2
commit 6b86b0da4c
2706 changed files with 9074 additions and 7273 deletions
@@ -1,12 +1,12 @@
---
id: AI-RL-TD-001
category: "[[10_Wiki/💡 Topics/AI]]"
category: "10_Wiki/💡 Topics/AI"
confidence_score: 1.0
tags: [ai, reinforcement-learning, td-learning, temporal-difference, q-learning, sarsa, bellman-equation, machine-learning]
last_reinforced: 2026-04-26
---
# [[Temporal Difference Learning (시간차 학습)]]
# Temporal Difference Learning (시간차 학습)
## 📌 한 줄 통찰 (The Karpathy Summary)
> "결과가 나올 때까지 기다리는 인내 대신, 매 순간의 예측이 다음 순간의 실제와 얼마나 다른지(TD Error)를 계산하여 지능을 실시간으로 교정하라" — 강화학습에서 에피소드가 끝나지 않아도 현재의 예측치를 바탕으로 가치 함수를 업데이트하는 부트스트랩(Bootstrapping) 기반의 학습 방법론.
@@ -24,5 +24,5 @@ last_reinforced: 2026-04-26
- **정책 변화:** Antigravity 프로젝트는 에이전트의 작업 전략 최적화 시, 장기적인 성공 확률을 매 단계 예측하고 수정하기 위해 고도화된 TD 학습 알고리즘을 의사결정 엔진의 핵심으로 활용함.
## 🔗 지식 연결 (Graph)
- [[Reinforcement-Learning]], [[Reward-Shaping-in-RL]], [[Bellman-Equation-Foundations]], [[Deep-Learning-Foundations]]
- **Raw Source:** [[10_Wiki/Topics/AI/Temporal-Difference-Learning.md]]
- [[Reinforcement-Learning]], [[Reward-Shaping-in-RL]], Bellman-Equation-Foundations, Deep-Learning-Foundations
- **Raw Source:** 10_Wiki/Topics/AI/Temporal-Difference-Learning.md