feat: complete wikification of War Commander batch 1&2 and final grey dot cleanup
This commit is contained in:
@@ -1,12 +1,12 @@
|
||||
---
|
||||
id: RL-ELIG-001
|
||||
category: "[[10_Wiki/💡 Topics/AI]]"
|
||||
category: "10_Wiki/💡 Topics/AI"
|
||||
confidence_score: 1.0
|
||||
tags: [reinforcement-learning, ai, eligibility-traces, credit-assignment, temporal-difference]
|
||||
last_reinforced: 2026-04-26
|
||||
---
|
||||
|
||||
# [[Eligibility Traces (적격성 흔적)]]
|
||||
# Eligibility Traces (적격성 흔적)
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "현재의 보상을 과거의 어떤 행동에 나누어줄지 결정하는 지능적 기억의 자국" — 강화학습에서 발생한 보상을 과거에 방문했던 상태들과 연결하여 업데이트 효율을 높이는 기술로, TD($\lambda$) 알고리즘의 핵심.
|
||||
@@ -25,5 +25,5 @@ last_reinforced: 2026-04-26
|
||||
- **정책 변화:** Antigravity 에이전트의 다단계 의사결정 모델은 적격성 흔적 원리를 활용하여, 최종 태스크 성공 시 그 과정에서 거쳐온 중간 지식 검색 단계들의 유용성을 소급 평가함.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
- [[Temporal-Difference-Learning]], [[Reinforcement-Learning]], [[Q-Learning-Foundations]], [[Monte-Carlo-Methods]]
|
||||
- **Raw Source:** [[10_Wiki/Topics/AI/Eligibility-Traces.md]]
|
||||
- [[Temporal-Difference-Learning]], [[Reinforcement-Learning]], Q-Learning-Foundations, [[Monte-Carlo-Methods]]
|
||||
- **Raw Source:** 10_Wiki/Topics/AI/Eligibility-Traces.md
|
||||
|
||||
Reference in New Issue
Block a user