docs: finalized wiki integrity maintenance (v3.0 standard) - pruned 1400+ stubs and fixed 11k+ ghost links
This commit is contained in:
@@ -6,7 +6,7 @@ tags: [AI, ReinforcementLearning, ImitationLearning, Robotics]
|
||||
last_reinforced: 2026-04-20
|
||||
---
|
||||
|
||||
# [[Imitation-Learning]] (모방 학습)
|
||||
# [[Imitation-Learning|Imitation-Learning]] (모방 학습)
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "맨땅에 헤딩하지 말고, 스승의 시범을 보고 배워라." 보상 함수가 없거나 정의하기 어려울 때, 전문가(인간 등)의 시연 데이터를 모방하여 정책을 학습시키는 방식이다.
|
||||
@@ -23,5 +23,5 @@ last_reinforced: 2026-04-20
|
||||
- 모방 학습의 치명적 한계는 '스승보다 잘할 수 없다'는 것과 시연 데이터에 없는 상황(Out-of-distribution)을 만나면 무너진다는 것이다. 이를 해결하기 위해 모방 학습으로 초기 정책을 잡고, 이후 강화학습(RL)으로 스스로 탐험하며 한계를 돌파하는 하이브리드 전략이 주류다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
- Related: [[Reinforcement Learning (RL)]] , [[Inverse-Reinforcement-Learning]]
|
||||
- Related: [[Reinforcement Learning (RL)|Reinforcement Learning (RL)]] , [[Inverse-Reinforcement-Learning|Inverse-Reinforcement-Learning]]
|
||||
- Comparison: RLHF (인간 피드백 기반 강화학습)
|
||||
|
||||
Reference in New Issue
Block a user