Files
2nd/10_Wiki/Topics/Imitation-Learning.md
T
2026-05-02 23:33:34 +09:00

28 lines
1.9 KiB
Markdown

---
id: [[P-Reinforce|P-Reinforce]]-AI-IMITATION
category: Unified
confidence_score: 0.95
tags: [AI, ReinforcementLearning, ImitationLearning, [[Robotics|Robotics]]]
last_reinforced: 2026-04-20
---
# [[Imitation-Learning|Imitation-Learning]] (모방 학습)
## 📌 한 줄 통찰 (The Karpathy Summary)
> "맨땅에 헤딩하지 말고, 스승의 시범을 보고 배워라." 보상 함수가 없거나 정의하기 어려울 때, 전문가(인간 등)의 시연 데이터를 모방하여 정책을 학습시키는 방식이다.
## 📖 구조화된 지식 (Synthesized Content)
- **Why Imitation?**: 강화학습에서 희소한 보상(Sparse Reward) 문제는 학습을 불가능하게 한다. 전문가의 자취를 따라가는 것은 훨씬 빠른 경로를 제공한다.
- **Methods**:
- **[[Behavior|Behavior]]al Cloning (BC)**: 시연 데이터를 단순한 지도 학습(Supervised Learning)으로 학습. (데이터 밖의 상황에 취약)
- **Inverse Reinforcement Learning (IRL)**: 전문가의 행동으로부터 그가 추구하는 '보상 함수'를 역으로 추론함.
- **GAIL (Generative Adversarial Imitation Learning)**: GAN 구조를 활용해 시연자와 구분이 안 되는 행동을 하도록 학습.
- **Domain**: 자율주행, 로봇 팔 제어, 개인화된 에이전트.
## ⚠️ 모순 및 업데이트 (RL Update)
- 모방 학습의 치명적 한계는 '스승보다 잘할 수 없다'는 것과 시연 데이터에 없는 상황(Out-of-distribution)을 만나면 무너진다는 것이다. 이를 해결하기 위해 모방 학습으로 초기 정책을 잡고, 이후 강화학습(RL)으로 스스로 탐험하며 한계를 돌파하는 하이브리드 전략이 주류다.
## 🔗 지식 연결 (Graph)
- Related: [[Reinforcement Learning (RL)|Reinforcement Learning (RL)]] , [[Inverse-Reinforcement-Learning|Inverse-Reinforcement-Learning]]
- Comparison: RLHF (인간 피드백 기반 강화학습)