2.1 KiB
2.1 KiB
id, category, confidence_score, tags, last_reinforced
| id | category | confidence_score | tags | last_reinforced | |||||
|---|---|---|---|---|---|---|---|---|---|
| TD-LEARN-001 | 10_Wiki/💡 Topics/AI | 1.0 |
|
2026-04-26 |
Temporal Difference Learning (TD 학습)
📌 한 줄 통찰 (The Karpathy Summary)
"끝까지 가보지 않아도, 한 걸음 뒤의 미래를 통해 현재를 수정하라" — 에피소드가 끝나기를 기다리지 않고, 현재의 예측값과 바로 다음 단계의 보상 및 예측값 사이의 차이(TD Error)를 이용해 실시간으로 학습하는 강화학습의 핵심 원리.
📖 구조화된 지식 (Synthesized Content)
- 추출된 패턴: 몬테카를로(전체 경험 필요)와 동적 계획법(환경 모델 필요)의 장점을 결합하여, 환경의 모델 없이도 실시간 경험을 통해 가치 함수를 업데이트하는 부트스트래핑(Bootstrapping) 패턴.
- 세부 내용:
- TD Error:
Target(R_{t+1} + \gamma V(S_{t+1})) - Current\ Estimate(V(S_t)). 이 오차를 줄이는 것이 목표. - Bootstrapping: 현재의 예측값을 바탕으로 또 다른 예측값을 갱신하는 방식.
- TD(0): 바로 다음 한 단계의 정보만 사용하는 가장 기본적인 형태.
- TD(
\lambda): 여러 단계 앞의 정보를 가중 평균하여 학습 효율과 안정성 사이의 균형을 맞춤 (Eligibility Traces).
- TD Error:
⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- 과거 데이터와의 충돌: 에피소드가 완료되어야만 학습이 가능했던 초기 모델들의 한계를 넘어, 연속적인 작업 환경에서도 실시간으로 지능을 개선할 수 있는 토대 마련.
- 정책 변화: Antigravity 프로젝트의 자율 학습 에이전트는 TD 학습 원리를 활용하여, 긴 작업 시퀀스 중에도 각 단계의 성공 가능성을 실시간으로 업데이트하며 최적의 경로를 탐색함.