bluemsi/2nd

Files

T

bluemsi 6b86b0da4c feat: complete wikification of War Commander batch 1&2 and final grey dot cleanup

2026-04-27 18:58:22 +09:00

2.2 KiB

Raw Blame History

id, category, confidence_score, tags, last_reinforced

id

category

confidence_score

tags

last_reinforced

RL-INV-001

10_Wiki/💡 Topics/AI

1.0

ai

reinforcement-learning

inverse-rl

imitation-learning

apprenticeship-learning

2026-04-26

Inverse Reinforcement Learning (역강화학습)

📌 한 줄 통찰 (The Karpathy Summary)

"모델에게 무엇이 좋은지 알려주지 말고, 전문가의 행동을 관찰하여 스스로 '보상(Reward)'의 의미를 추론하게 하라" — 명시적인 보상 함수를 정의하기 어려운 복잡한 태스크에서, 전문가의 시연(Demonstration)을 보고 에이전트가 그 내면에 깔린 보상 체계를 역으로 학습하는 기법.

📖 구조화된 지식 (Synthesized Content)

추출된 패턴: "Learning from Observation" — 결과값(Reward)이 주어지는 일반 강화학습과 달리, 전문가의 궤적(Trajectories)을 데이터로 삼아 에이전트가 지향해야 할 목표 함수 자체를 도출하는 관찰 기반 학습 패턴.
주요 알고리즘:
- Maximum Entropy IRL: 전문가의 행동을 가장 잘 설명하면서도 가장 불확실성이 높은(편향되지 않은) 보상 함수 탐색.
- Apprenticeship Learning: 추출된 보상 함수를 바탕으로 전문가의 성능을 재현하거나 능가하도록 학습.
의의: 인간이 말로 설명하기 힘든 복잡한 가치 판단이나 '운전 스타일', '숙련된 작업 방식' 등을 AI에게 효과적으로 이식할 수 있음.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

과거 데이터와의 충돌: 단순 모방 학습(Behavioral Cloning)은 관측되지 않은 상황에서 급격히 성능이 저하되지만, IRL은 행동의 '근본 목적'을 배우기에 훨씬 더 높은 일반화 능력을 보여줌.
정책 변화: Antigravity 프로젝트는 에이전트가 사용자의 작업 패턴을 학습할 때, 단순한 명령 복제가 아닌 IRL을 적용하여 사용자가 진정으로 의도한 '작업의 품질 기준'을 스스로 파악하도록 설계함.

🔗 지식 연결 (Graph)

Reinforcement-Learning, Imitation-Learning, Reward-Shaping, Generalization-in-AI
Raw Source: 10_Wiki/Topics/AI/Inverse-Reinforcement-Learning.md