2nd/10_Wiki/Topics/Inverse-Reinforcement-Learning.md

---
id: RL-INV-001
category: Dev
confidence_score: 1.0
tags: [ai, [[Reinforcement-Learning|Reinforcement-Learning]], inverse-rl, [[Imitation-Learning|Imitation-Learning]], apprenticeship-learning]
last_reinforced: 2026-04-26
---

# Inverse Reinforcement Learning (역강화학습)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "모델에게 무엇이 좋은지 알려주지 말고, 전문가의 행동을 관찰하여 스스로 '보상(Reward)'의 의미를 추론하게 하라" — 명시적인 보상 함수를 정의하기 어려운 복잡한 태스크에서, 전문가의 시연(Demonstration)을 보고 에이전트가 그 내면에 깔린 보상 체계를 역으로 학습하는 기법.

## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** "Learning from [[Observation|Observation]]" — 결과값(Reward)이 주어지는 일반 강화학습과 달리, 전문가의 궤적(Trajectories)을 데이터로 삼아 에이전트가 지향해야 할 목표 함수 자체를 도출하는 관찰 기반 학습 패턴.
- **주요 알고리즘:**
    - **Maximum Entropy IRL:** 전문가의 행동을 가장 잘 설명하면서도 가장 불확실성이 높은(편향되지 않은) 보상 함수 탐색.
    - **Apprenticeship Learning:** 추출된 보상 함수를 바탕으로 전문가의 성능을 재현하거나 능가하도록 학습.
- **의의:** 인간이 말로 설명하기 힘든 복잡한 가치 판단이나 '운전 스타일', '숙련된 작업 방식' 등을 AI에게 효과적으로 이식할 수 있음.

## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 단순 모방 학습([[Behavior|Behavior]]al Cloning)은 관측되지 않은 상황에서 급격히 성능이 저하되지만, IRL은 행동의 '근본 목적'을 배우기에 훨씬 더 높은 일반화 능력을 보여줌.
- **정책 변화:** Antigravity 프로젝트는 에이전트가 사용자의 작업 패턴을 학습할 때, 단순한 명령 복제가 아닌 IRL을 적용하여 사용자가 진정으로 의도한 '작업의 품질 기준'을 스스로 파악하도록 설계함.

## 🔗 지식 연결 (Graph)
- [[Reinforcement-Learning|Reinforcement-Learning]], [[Imitation-Learning|Imitation-Learning]], Reward-Shaping, [[Generalization-in-AI|Generalization-in-AI]]
- **Raw Source:** 10_Wiki/Topics/AI/Inverse-Reinforcement-Learning.md