--- id: AI-RL-TD-001 category: Unified confidence_score: 1.0 tags: [ai, [[Reinforcement-Learning|Reinforcement-Learning]], td-learning, temporal-difference, q-learning, sarsa, [[Bellman-Equation|Bellman-Equation]], machine-learning] last_reinforced: 2026-04-26 --- # Temporal Difference Learning (시간차 학습) ## 📌 한 줄 통찰 (The Karpathy Summary) > "결과가 나올 때까지 기다리는 인내 대신, 매 순간의 예측이 다음 순간의 실제와 얼마나 다른지(TD Error)를 계산하여 지능을 실시간으로 교정하라" — 강화학습에서 에피소드가 끝나지 않아도 현재의 예측치를 바탕으로 가치 함수를 업데이트하는 부트스트랩(Bootstrapping) 기반의 학습 방법론. ## 📖 구조화된 지식 (Synthesized Content) - **추출된 패턴:** "Prediction-Correction Loop with Immediate Feedback" — 몬테카를로 방식처럼 끝까지 가보지 않고도, 다음 상태의 보상과 예상 가치를 '참조값'으로 삼아 현재의 가치 추정치를 조금씩 수정해 나가는 패턴. - **핵심 메커니즘:** - **TD Error:** $r + \gamma V(s') - V(s)$. 즉, '실제 보상 + 다음 상태의 예상 가치'와 '현재 예상 가치'의 차이. - **Bootstrapping:** 자신의 이전 예측치를 사용하여 현재의 예측치를 업데이트하는 방식. - **Algorithm Types:** 온-폴리시 방식인 SARSA와 오프-폴리시 방식인 Q-Learning이 대표적임. - **의의:** 학습 효율이 매우 높고 환경과의 상호작용 중에 실시간으로 배울 수 있어, 바둑(AlphaGo)부터 로봇 제어까지 현대 강화학습의 거의 모든 성공 사례의 기술적 중추가 됨. ## ⚠️ 모순 및 업데이트 (Contradictions & RL Update) - **과거 데이터와의 충돌:** 초기에는 단순히 보상을 극대화하는 수단으로만 여겨졌으나, 이제는 인간의 뇌 속 도파민 체계가 TD Error와 유사하게 동작한다는 뇌과학적 발견과 결합하여 '지능의 보편적 학습 원리'로 재해석되고 있음. - **정책 변화:** Antigravity 프로젝트는 에이전트의 작업 전략 최적화 시, 장기적인 성공 확률을 매 단계 예측하고 수정하기 위해 고도화된 TD 학습 알고리즘을 의사결정 엔진의 핵심으로 활용함. ## 🔗 지식 연결 (Graph) - [[Reinforcement-Learning|Reinforcement-Learning]], [[Reward-Shaping-in-RL|Reward-Shaping-in-RL]], Bellman-Equation-Foundations, [[Deep-Learning|Deep-Learning]]-Foundations - **Raw Source:** 10_Wiki/Topics/AI/Temporal-Difference-Learning.md