bluemsi/2nd

Files

T

Antigravity Agent c612160a13 chore(wiki): reinforce knowledge batch #6-#10 (200 docs milestone)

2026-04-26 15:07:47 +09:00

2.1 KiB

Raw Blame History

id, category, confidence_score, tags, last_reinforced

id

category

confidence_score

tags

last_reinforced

TD-LEARN-001

10_Wiki/💡 Topics/AI

1.0

reinforcement-learning

ai

temporal-difference

bellman-equation

machine-learning

2026-04-26

Temporal Difference Learning (TD 학습)

📌 한 줄 통찰 (The Karpathy Summary)

"끝까지 가보지 않아도, 한 걸음 뒤의 미래를 통해 현재를 수정하라" — 에피소드가 끝나기를 기다리지 않고, 현재의 예측값과 바로 다음 단계의 보상 및 예측값 사이의 차이(TD Error)를 이용해 실시간으로 학습하는 강화학습의 핵심 원리.

📖 구조화된 지식 (Synthesized Content)

추출된 패턴: 몬테카를로(전체 경험 필요)와 동적 계획법(환경 모델 필요)의 장점을 결합하여, 환경의 모델 없이도 실시간 경험을 통해 가치 함수를 업데이트하는 부트스트래핑(Bootstrapping) 패턴.
세부 내용:
- TD Error: Target(R_{t+1} + \gamma V(S_{t+1})) - Current\ Estimate(V(S_t)). 이 오차를 줄이는 것이 목표.
- Bootstrapping: 현재의 예측값을 바탕으로 또 다른 예측값을 갱신하는 방식.
- TD(0): 바로 다음 한 단계의 정보만 사용하는 가장 기본적인 형태.
- TD(\lambda): 여러 단계 앞의 정보를 가중 평균하여 학습 효율과 안정성 사이의 균형을 맞춤 (Eligibility Traces).

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

과거 데이터와의 충돌: 에피소드가 완료되어야만 학습이 가능했던 초기 모델들의 한계를 넘어, 연속적인 작업 환경에서도 실시간으로 지능을 개선할 수 있는 토대 마련.
정책 변화: Antigravity 프로젝트의 자율 학습 에이전트는 TD 학습 원리를 활용하여, 긴 작업 시퀀스 중에도 각 단계의 성공 가능성을 실시간으로 업데이트하며 최적의 경로를 탐색함.

🔗 지식 연결 (Graph)

Reinforcement-Learning, Q-Learning-Foundations, Bellman-Equation, Monte-Carlo-Methods
Raw Source: 10_Wiki/Topics/AI/Temporal-Difference-Learning.md