feat: complete wikification of War Commander batch 1&2 and final grey dot cleanup
This commit is contained in:
@@ -1,12 +1,12 @@
|
||||
---
|
||||
id: RL-INV-001
|
||||
category: "[[10_Wiki/💡 Topics/AI]]"
|
||||
category: "10_Wiki/💡 Topics/AI"
|
||||
confidence_score: 1.0
|
||||
tags: [ai, reinforcement-learning, inverse-rl, imitation-learning, apprenticeship-learning]
|
||||
last_reinforced: 2026-04-26
|
||||
---
|
||||
|
||||
# [[Inverse Reinforcement Learning (역강화학습)]]
|
||||
# Inverse Reinforcement Learning (역강화학습)
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "모델에게 무엇이 좋은지 알려주지 말고, 전문가의 행동을 관찰하여 스스로 '보상(Reward)'의 의미를 추론하게 하라" — 명시적인 보상 함수를 정의하기 어려운 복잡한 태스크에서, 전문가의 시연(Demonstration)을 보고 에이전트가 그 내면에 깔린 보상 체계를 역으로 학습하는 기법.
|
||||
@@ -23,5 +23,5 @@ last_reinforced: 2026-04-26
|
||||
- **정책 변화:** Antigravity 프로젝트는 에이전트가 사용자의 작업 패턴을 학습할 때, 단순한 명령 복제가 아닌 IRL을 적용하여 사용자가 진정으로 의도한 '작업의 품질 기준'을 스스로 파악하도록 설계함.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
- [[Reinforcement-Learning]], [[Imitation-Learning]], [[Reward-Shaping]], [[Generalization-in-AI]]
|
||||
- **Raw Source:** [[10_Wiki/Topics/AI/Inverse-Reinforcement-Learning.md]]
|
||||
- [[Reinforcement-Learning]], [[Imitation-Learning]], Reward-Shaping, [[Generalization-in-AI]]
|
||||
- **Raw Source:** 10_Wiki/Topics/AI/Inverse-Reinforcement-Learning.md
|
||||
|
||||
Reference in New Issue
Block a user