feat: complete wikification of War Commander batch 1&2 and final grey dot cleanup
This commit is contained in:
@@ -1,12 +1,12 @@
|
||||
---
|
||||
id: AI-RL-TD-001
|
||||
category: "[[10_Wiki/💡 Topics/AI]]"
|
||||
category: "10_Wiki/💡 Topics/AI"
|
||||
confidence_score: 1.0
|
||||
tags: [ai, reinforcement-learning, td-learning, temporal-difference, q-learning, sarsa, bellman-equation, machine-learning]
|
||||
last_reinforced: 2026-04-26
|
||||
---
|
||||
|
||||
# [[Temporal Difference Learning (시간차 학습)]]
|
||||
# Temporal Difference Learning (시간차 학습)
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "결과가 나올 때까지 기다리는 인내 대신, 매 순간의 예측이 다음 순간의 실제와 얼마나 다른지(TD Error)를 계산하여 지능을 실시간으로 교정하라" — 강화학습에서 에피소드가 끝나지 않아도 현재의 예측치를 바탕으로 가치 함수를 업데이트하는 부트스트랩(Bootstrapping) 기반의 학습 방법론.
|
||||
@@ -24,5 +24,5 @@ last_reinforced: 2026-04-26
|
||||
- **정책 변화:** Antigravity 프로젝트는 에이전트의 작업 전략 최적화 시, 장기적인 성공 확률을 매 단계 예측하고 수정하기 위해 고도화된 TD 학습 알고리즘을 의사결정 엔진의 핵심으로 활용함.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
- [[Reinforcement-Learning]], [[Reward-Shaping-in-RL]], [[Bellman-Equation-Foundations]], [[Deep-Learning-Foundations]]
|
||||
- **Raw Source:** [[10_Wiki/Topics/AI/Temporal-Difference-Learning.md]]
|
||||
- [[Reinforcement-Learning]], [[Reward-Shaping-in-RL]], Bellman-Equation-Foundations, Deep-Learning-Foundations
|
||||
- **Raw Source:** 10_Wiki/Topics/AI/Temporal-Difference-Learning.md
|
||||
|
||||
Reference in New Issue
Block a user