feat: Knowledge Gardening Milestone 500 (Batch #26 - Halfway to half!)

2026-04-26 20:25:51 +09:00
parent 1ea19ab99a
commit 2e1b3a7c34
17 changed files with 394 additions and 52 deletions
@@ -1,28 +1,28 @@
 ---
-id: TD-LEARN-001
+id: AI-RL-TD-001
 category: "[[10_Wiki/💡 Topics/AI]]"
 confidence_score: 1.0
-tags: [reinforcement-learning, ai, temporal-difference, bellman-equation, machine-learning]
+tags: [ai, reinforcement-learning, td-learning, temporal-difference, q-learning, sarsa, bellman-equation, machine-learning]
 last_reinforced: 2026-04-26
 ---

-# [[Temporal Difference Learning (TD 학습)]]
+# [[Temporal Difference Learning (시간차 학습)]]

 ## 📌 한 줄 통찰 (The Karpathy Summary)
-> "끝까지 가보지 않아도, 한 걸음 뒤의 미래를 통해 현재를 수정하라" — 에피소드가 끝나기를 기다리지 않고, 현재의 예측값과 바로 다음 단계의 보상 및 예측값 사이의 차이(TD Error)를 이용해 실시간으로 학습하는 강화학습의 핵심 원리.
+> "결과가 나올 때까지 기다리는 인내 대신, 매 순간의 예측이 다음 순간의 실제와 얼마나 다른지(TD Error)를 계산하여 지능을 실시간으로 교정하라" — 강화학습에서 에피소드가 끝나지 않아도 현재의 예측치를 바탕으로 가치 함수를 업데이트하는 부트스트랩(Bootstrapping) 기반의 학습 방법론.

 ## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** 몬테카를로(전체 경험 필요)와 동적 계획법(환경 모델 필요)의 장점을 결합하여, 환경의 모델 없이도 실시간 경험을 통해 가치 함수를 업데이트하는 부트스트래핑(Bootstrapping) 패턴.
- **세부 내용:**
-    - **TD Error:** $Target(R_{t+1} + \gamma V(S_{t+1})) - Current\ Estimate(V(S_t))$. 이 오차를 줄이는 것이 목표.
-    - **Bootstrapping:** 현재의 예측값을 바탕으로 또 다른 예측값을 갱신하는 방식.
-    - **TD(0):** 바로 다음 한 단계의 정보만 사용하는 가장 기본적인 형태.
-    - **TD($\lambda$):** 여러 단계 앞의 정보를 가중 평균하여 학습 효율과 안정성 사이의 균형을 맞춤 (Eligibility Traces).
+- **추출된 패턴:** "Prediction-Correction Loop with Immediate Feedback" — 몬테카를로 방식처럼 끝까지 가보지 않고도, 다음 상태의 보상과 예상 가치를 '참조값'으로 삼아 현재의 가치 추정치를 조금씩 수정해 나가는 패턴.
+- **핵심 메커니즘:**
+    - **TD Error:** $r + \gamma V(s') - V(s)$. 즉, '실제 보상 + 다음 상태의 예상 가치'와 '현재 예상 가치'의 차이.
+    - **Bootstrapping:** 자신의 이전 예측치를 사용하여 현재의 예측치를 업데이트하는 방식.
+    - **Algorithm Types:** 온-폴리시 방식인 SARSA와 오프-폴리시 방식인 Q-Learning이 대표적임.
+- **의의:** 학습 효율이 매우 높고 환경과의 상호작용 중에 실시간으로 배울 수 있어, 바둑(AlphaGo)부터 로봇 제어까지 현대 강화학습의 거의 모든 성공 사례의 기술적 중추가 됨.

 ## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 에피소드가 완료되어야만 학습이 가능했던 초기 모델들의 한계를 넘어, 연속적인 작업 환경에서도 실시간으로 지능을 개선할 수 있는 토대 마련.
- **정책 변화:** Antigravity 프로젝트의 자율 학습 에이전트는 TD 학습 원리를 활용하여, 긴 작업 시퀀스 중에도 각 단계의 성공 가능성을 실시간으로 업데이트하며 최적의 경로를 탐색함.
+- **과거 데이터와의 충돌:** 초기에는 단순히 보상을 극대화하는 수단으로만 여겨졌으나, 이제는 인간의 뇌 속 도파민 체계가 TD Error와 유사하게 동작한다는 뇌과학적 발견과 결합하여 '지능의 보편적 학습 원리'로 재해석되고 있음.
+- **정책 변화:** Antigravity 프로젝트는 에이전트의 작업 전략 최적화 시, 장기적인 성공 확률을 매 단계 예측하고 수정하기 위해 고도화된 TD 학습 알고리즘을 의사결정 엔진의 핵심으로 활용함.

 ## 🔗 지식 연결 (Graph)
- [[Reinforcement-Learning]], [[Q-Learning-Foundations]], [[Bellman-Equation]], [[Monte-Carlo-Methods]]
+- [[Reinforcement-Learning]], [[Reward-Shaping-in-RL]], [[Bellman-Equation-Foundations]], [[Deep-Learning-Foundations]]
 - **Raw Source:** [[10_Wiki/Topics/AI/Temporal-Difference-Learning.md]]