bluemsi/2nd

Files

T

Antigravity Agent 6445fcc05b docs: finalized wiki integrity maintenance (v3.0 standard) - pruned 1400+ stubs and fixed 11k+ ghost links

2026-05-02 09:18:34 +09:00

1.9 KiB

Raw Blame History

id: P-Reinforce-AI-IMITATION category: "10_Wiki/💡 Topics/AI" confidence_score: 0.95 tags: [AI, ReinforcementLearning, ImitationLearning, Robotics] last_reinforced: 2026-04-20

Imitation-Learning (모방 학습)

📌 한 줄 통찰 (The Karpathy Summary)

"맨땅에 헤딩하지 말고, 스승의 시범을 보고 배워라." 보상 함수가 없거나 정의하기 어려울 때, 전문가(인간 등)의 시연 데이터를 모방하여 정책을 학습시키는 방식이다.

📖 구조화된 지식 (Synthesized Content)

Why Imitation?: 강화학습에서 희소한 보상(Sparse Reward) 문제는 학습을 불가능하게 한다. 전문가의 자취를 따라가는 것은 훨씬 빠른 경로를 제공한다.
Methods:
- Behavioral Cloning (BC): 시연 데이터를 단순한 지도 학습(Supervised Learning)으로 학습. (데이터 밖의 상황에 취약)
- Inverse Reinforcement Learning (IRL): 전문가의 행동으로부터 그가 추구하는 '보상 함수'를 역으로 추론함.
- GAIL (Generative Adversarial Imitation Learning): GAN 구조를 활용해 시연자와 구분이 안 되는 행동을 하도록 학습.
Domain: 자율주행, 로봇 팔 제어, 개인화된 에이전트.

⚠️ 모순 및 업데이트 (RL Update)

모방 학습의 치명적 한계는 '스승보다 잘할 수 없다'는 것과 시연 데이터에 없는 상황(Out-of-distribution)을 만나면 무너진다는 것이다. 이를 해결하기 위해 모방 학습으로 초기 정책을 잡고, 이후 강화학습(RL)으로 스스로 탐험하며 한계를 돌파하는 하이브리드 전략이 주류다.

🔗 지식 연결 (Graph)

Related: Reinforcement Learning (RL) , Inverse-Reinforcement-Learning
Comparison: RLHF (인간 피드백 기반 강화학습)