Files
2nd/10_Wiki/Topics/AI/Inverse-Reinforcement-Learning.md
T

2.2 KiB

id, category, confidence_score, tags, last_reinforced
id category confidence_score tags last_reinforced
RL-INV-001 10_Wiki/💡 Topics/AI 1.0
ai
reinforcement-learning
inverse-rl
imitation-learning
apprenticeship-learning
2026-04-26

Inverse Reinforcement Learning (역강화학습)

📌 한 줄 통찰 (The Karpathy Summary)

"모델에게 무엇이 좋은지 알려주지 말고, 전문가의 행동을 관찰하여 스스로 '보상(Reward)'의 의미를 추론하게 하라" — 명시적인 보상 함수를 정의하기 어려운 복잡한 태스크에서, 전문가의 시연(Demonstration)을 보고 에이전트가 그 내면에 깔린 보상 체계를 역으로 학습하는 기법.

📖 구조화된 지식 (Synthesized Content)

  • 추출된 패턴: "Learning from Observation" — 결과값(Reward)이 주어지는 일반 강화학습과 달리, 전문가의 궤적(Trajectories)을 데이터로 삼아 에이전트가 지향해야 할 목표 함수 자체를 도출하는 관찰 기반 학습 패턴.
  • 주요 알고리즘:
    • Maximum Entropy IRL: 전문가의 행동을 가장 잘 설명하면서도 가장 불확실성이 높은(편향되지 않은) 보상 함수 탐색.
    • Apprenticeship Learning: 추출된 보상 함수를 바탕으로 전문가의 성능을 재현하거나 능가하도록 학습.
  • 의의: 인간이 말로 설명하기 힘든 복잡한 가치 판단이나 '운전 스타일', '숙련된 작업 방식' 등을 AI에게 효과적으로 이식할 수 있음.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

  • 과거 데이터와의 충돌: 단순 모방 학습(Behavioral Cloning)은 관측되지 않은 상황에서 급격히 성능이 저하되지만, IRL은 행동의 '근본 목적'을 배우기에 훨씬 더 높은 일반화 능력을 보여줌.
  • 정책 변화: Antigravity 프로젝트는 에이전트가 사용자의 작업 패턴을 학습할 때, 단순한 명령 복제가 아닌 IRL을 적용하여 사용자가 진정으로 의도한 '작업의 품질 기준'을 스스로 파악하도록 설계함.

🔗 지식 연결 (Graph)