Files
2nd/10_Wiki/Topics/AI/Temporal-Difference-Learning.md
T

2.1 KiB

id, category, confidence_score, tags, last_reinforced
id category confidence_score tags last_reinforced
TD-LEARN-001 10_Wiki/💡 Topics/AI 1.0
reinforcement-learning
ai
temporal-difference
bellman-equation
machine-learning
2026-04-26

Temporal Difference Learning (TD 학습)

📌 한 줄 통찰 (The Karpathy Summary)

"끝까지 가보지 않아도, 한 걸음 뒤의 미래를 통해 현재를 수정하라" — 에피소드가 끝나기를 기다리지 않고, 현재의 예측값과 바로 다음 단계의 보상 및 예측값 사이의 차이(TD Error)를 이용해 실시간으로 학습하는 강화학습의 핵심 원리.

📖 구조화된 지식 (Synthesized Content)

  • 추출된 패턴: 몬테카를로(전체 경험 필요)와 동적 계획법(환경 모델 필요)의 장점을 결합하여, 환경의 모델 없이도 실시간 경험을 통해 가치 함수를 업데이트하는 부트스트래핑(Bootstrapping) 패턴.
  • 세부 내용:
    • TD Error: Target(R_{t+1} + \gamma V(S_{t+1})) - Current\ Estimate(V(S_t)). 이 오차를 줄이는 것이 목표.
    • Bootstrapping: 현재의 예측값을 바탕으로 또 다른 예측값을 갱신하는 방식.
    • TD(0): 바로 다음 한 단계의 정보만 사용하는 가장 기본적인 형태.
    • TD(\lambda): 여러 단계 앞의 정보를 가중 평균하여 학습 효율과 안정성 사이의 균형을 맞춤 (Eligibility Traces).

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

  • 과거 데이터와의 충돌: 에피소드가 완료되어야만 학습이 가능했던 초기 모델들의 한계를 넘어, 연속적인 작업 환경에서도 실시간으로 지능을 개선할 수 있는 토대 마련.
  • 정책 변화: Antigravity 프로젝트의 자율 학습 에이전트는 TD 학습 원리를 활용하여, 긴 작업 시퀀스 중에도 각 단계의 성공 가능성을 실시간으로 업데이트하며 최적의 경로를 탐색함.

🔗 지식 연결 (Graph)