feat: complete wikification of War Commander batch 1&2 and final grey dot cleanup

This commit is contained in:
2026-04-27 18:58:22 +09:00
parent 3424166ea2
commit 6b86b0da4c
2706 changed files with 9074 additions and 7273 deletions
@@ -1,12 +1,12 @@
---
id: RL-INV-001
category: "[[10_Wiki/💡 Topics/AI]]"
category: "10_Wiki/💡 Topics/AI"
confidence_score: 1.0
tags: [ai, reinforcement-learning, inverse-rl, imitation-learning, apprenticeship-learning]
last_reinforced: 2026-04-26
---
# [[Inverse Reinforcement Learning (역강화학습)]]
# Inverse Reinforcement Learning (역강화학습)
## 📌 한 줄 통찰 (The Karpathy Summary)
> "모델에게 무엇이 좋은지 알려주지 말고, 전문가의 행동을 관찰하여 스스로 '보상(Reward)'의 의미를 추론하게 하라" — 명시적인 보상 함수를 정의하기 어려운 복잡한 태스크에서, 전문가의 시연(Demonstration)을 보고 에이전트가 그 내면에 깔린 보상 체계를 역으로 학습하는 기법.
@@ -23,5 +23,5 @@ last_reinforced: 2026-04-26
- **정책 변화:** Antigravity 프로젝트는 에이전트가 사용자의 작업 패턴을 학습할 때, 단순한 명령 복제가 아닌 IRL을 적용하여 사용자가 진정으로 의도한 '작업의 품질 기준'을 스스로 파악하도록 설계함.
## 🔗 지식 연결 (Graph)
- [[Reinforcement-Learning]], [[Imitation-Learning]], [[Reward-Shaping]], [[Generalization-in-AI]]
- **Raw Source:** [[10_Wiki/Topics/AI/Inverse-Reinforcement-Learning.md]]
- [[Reinforcement-Learning]], [[Imitation-Learning]], Reward-Shaping, [[Generalization-in-AI]]
- **Raw Source:** 10_Wiki/Topics/AI/Inverse-Reinforcement-Learning.md