Files
2nd/10_Wiki/Topics/AI/Temporal-Difference-Learning.md
T

29 lines
2.1 KiB
Markdown

---
id: TD-LEARN-001
category: "[[10_Wiki/💡 Topics/AI]]"
confidence_score: 1.0
tags: [reinforcement-learning, ai, temporal-difference, bellman-equation, machine-learning]
last_reinforced: 2026-04-26
---
# [[Temporal Difference Learning (TD 학습)]]
## 📌 한 줄 통찰 (The Karpathy Summary)
> "끝까지 가보지 않아도, 한 걸음 뒤의 미래를 통해 현재를 수정하라" — 에피소드가 끝나기를 기다리지 않고, 현재의 예측값과 바로 다음 단계의 보상 및 예측값 사이의 차이(TD Error)를 이용해 실시간으로 학습하는 강화학습의 핵심 원리.
## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** 몬테카를로(전체 경험 필요)와 동적 계획법(환경 모델 필요)의 장점을 결합하여, 환경의 모델 없이도 실시간 경험을 통해 가치 함수를 업데이트하는 부트스트래핑(Bootstrapping) 패턴.
- **세부 내용:**
- **TD Error:** $Target(R_{t+1} + \gamma V(S_{t+1})) - Current\ Estimate(V(S_t))$. 이 오차를 줄이는 것이 목표.
- **Bootstrapping:** 현재의 예측값을 바탕으로 또 다른 예측값을 갱신하는 방식.
- **TD(0):** 바로 다음 한 단계의 정보만 사용하는 가장 기본적인 형태.
- **TD($\lambda$):** 여러 단계 앞의 정보를 가중 평균하여 학습 효율과 안정성 사이의 균형을 맞춤 (Eligibility Traces).
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 에피소드가 완료되어야만 학습이 가능했던 초기 모델들의 한계를 넘어, 연속적인 작업 환경에서도 실시간으로 지능을 개선할 수 있는 토대 마련.
- **정책 변화:** Antigravity 프로젝트의 자율 학습 에이전트는 TD 학습 원리를 활용하여, 긴 작업 시퀀스 중에도 각 단계의 성공 가능성을 실시간으로 업데이트하며 최적의 경로를 탐색함.
## 🔗 지식 연결 (Graph)
- [[Reinforcement-Learning]], [[Q-Learning-Foundations]], [[Bellman-Equation]], [[Monte-Carlo-Methods]]
- **Raw Source:** [[10_Wiki/Topics/AI/Temporal-Difference-Learning.md]]