---
id: [[P-Reinforce|P-Reinforce]]-AI-IMITATION
category: Dev
confidence_score: 0.95
tags: [AI, ReinforcementLearning, ImitationLearning, [[Robotics|Robotics]]]
last_reinforced: 2026-04-20
---

# [[Imitation-Learning|Imitation-Learning]] (모방 학습)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "맨땅에 헤딩하지 말고, 스승의 시범을 보고 배워라." 보상 함수가 없거나 정의하기 어려울 때, 전문가(인간 등)의 시연 데이터를 모방하여 정책을 학습시키는 방식이다.

## 📖 구조화된 지식 (Synthesized Content)
- **Why Imitation?**: 강화학습에서 희소한 보상(Sparse Reward) 문제는 학습을 불가능하게 한다. 전문가의 자취를 따라가는 것은 훨씬 빠른 경로를 제공한다.
- **Methods**:
    - **[[Behavior|Behavior]]al Cloning (BC)**: 시연 데이터를 단순한 지도 학습(Supervised Learning)으로 학습. (데이터 밖의 상황에 취약)
    - **Inverse Reinforcement Learning (IRL)**: 전문가의 행동으로부터 그가 추구하는 '보상 함수'를 역으로 추론함.
    - **GAIL (Generative Adversarial Imitation Learning)**: GAN 구조를 활용해 시연자와 구분이 안 되는 행동을 하도록 학습.
- **Domain**: 자율주행, 로봇 팔 제어, 개인화된 에이전트.

## ⚠️ 모순 및 업데이트 (RL Update)
- 모방 학습의 치명적 한계는 '스승보다 잘할 수 없다'는 것과 시연 데이터에 없는 상황(Out-of-distribution)을 만나면 무너진다는 것이다. 이를 해결하기 위해 모방 학습으로 초기 정책을 잡고, 이후 강화학습(RL)으로 스스로 탐험하며 한계를 돌파하는 하이브리드 전략이 주류다.

## 🔗 지식 연결 (Graph)
- Related: [[Reinforcement Learning (RL)|Reinforcement Learning (RL)]] , [[Inverse-Reinforcement-Learning|Inverse-Reinforcement-Learning]]
- Comparison: RLHF (인간 피드백 기반 강화학습)