--- id: RL-REWARD-SHAPE-001 category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 1.0 tags: [ai, reinforcement-learning, reward-shaping, reward-design, sparse-rewards, behavior-steering] last_reinforced: 2026-04-26 --- # Reward Shaping in RL (κ°•ν™”ν•™μŠ΅μ—μ„œμ˜ 보상 섀계) ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "μ΅œμ’… λͺ©ν‘œλΌλŠ” μ»€λ‹€λž€ 보상을 ν–₯ν•΄ κ°€κΈ° μœ„ν•΄, μ—μ΄μ „νŠΈμ˜ λ°œκ±ΈμŒλ§ˆλ‹€ 'μ˜¬λ°”λ₯Έ λ°©ν–₯'을 κ°€λ¦¬ν‚€λŠ” μž‘μ€ μ΄μ •ν‘œ(Sub-rewards)λ₯Ό μ„€κ³„ν•˜λΌ" β€” 보상이 ν¬μ†Œν•œ(Sparse Reward) ν™˜κ²½μ—μ„œ ν•™μŠ΅ 속도λ₯Ό 높이기 μœ„ν•΄ 보상 ν•¨μˆ˜μ— 좔가적인 지침을 λ”ν•˜λŠ” 기법. ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) - **μΆ”μΆœλœ νŒ¨ν„΄:** "Intermediate Incentivization and Alignment Steering" β€” μ΅œμ’… 성곡 μ‹œμ—λ§Œ 보상을 μ£ΌλŠ” λŒ€μ‹ , λͺ©ν‘œμ— κ°€κΉŒμ›Œμ§€λŠ” μƒνƒœ μ „μ΄λ§ˆλ‹€ 보상을 λΆ€μ—¬ν•˜μ—¬ μ—μ΄μ „νŠΈκ°€ '무엇이 쒋은 행동인지'λ₯Ό λΉ λ₯΄κ²Œ νŒŒμ•…ν•˜κ²Œ λ§Œλ“œλŠ” νŒ¨ν„΄. - **μ£Όμš” κ³ λ € 사항:** - **Potential-based Reward Shaping:** μ •μ±…μ˜ μ΅œμ μ„±μ„ ν•΄μΉ˜μ§€ μ•ŠμœΌλ©΄μ„œ 보상을 μΆ”κ°€ν•˜λŠ” μˆ˜ν•™μ  기법. - **Reward Hacking Risk:** μ—μ΄μ „νŠΈκ°€ 개발자의 μ˜λ„μ™€ 달리 꼼수λ₯Ό μ¨μ„œ λ³΄μƒλ§Œ κ·ΉλŒ€ν™”ν•˜λŠ” λΆ€μž‘μš© 주의. - **Dense vs Sparse:** λ„ˆλ¬΄ μ΄˜μ΄˜ν•œ 보상은 κ΅­μ†Œ μ΅œμ ν•΄(Local Optimum)에 빠뜨릴 수 있고, λ„ˆλ¬΄ ν¬μ†Œν•œ 보상은 ν•™μŠ΅ 자체λ₯Ό λΆˆκ°€λŠ₯ν•˜κ²Œ 함. - **의의:** λ³΅μž‘ν•œ λ‘œλ΄‡ μ œμ–΄λ‚˜ μ „λž΅ κ²Œμž„μ²˜λŸΌ μ„±κ³΅κΉŒμ§€μ˜ 과정이 κΈ΄ λ¬Έμ œμ—μ„œ AI의 ν•™μŠ΅ νš¨μœ¨μ„ κ²°μ •μ§“λŠ” κ°€μž₯ 결정적인 'κ΅μœ‘ν•™μ  섀계' κ³Όμ •. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌:** 보상을 많이 μ€„μˆ˜λ‘ λ˜‘λ˜‘ν•΄μ§„λ‹€λŠ” λ‹¨μˆœν•œ λ―ΏμŒμ—μ„œ λ²—μ–΄λ‚˜, μ΄μ œλŠ” 보상을 μ΅œμ†Œν™”ν•˜λ˜ μ—μ΄μ „νŠΈμ˜ 'ν˜ΈκΈ°μ‹¬(Curiosity)'μ΄λ‚˜ '자기 주도적 탐색'을 μž₯λ €ν•˜λŠ” 내적 동기(Intrinsic Motivation) μ—°κ΅¬λ‘œ νŠΈλ Œλ“œκ°€ 변화함. - **μ •μ±… λ³€ν™”:** Antigravity ν”„λ‘œμ νŠΈλŠ” μ—μ΄μ „νŠΈμ˜ μž‘μ—… μ™„μˆ˜λ„ 평가 μ‹œ, μ΅œμ’… 결과뿐만 μ•„λ‹ˆλΌ 효율적인 도ꡬ μ‚¬μš© 및 λΆˆν•„μš”ν•œ μ—°μ‚° λ°©μ§€ λ“± 각 단계별 '쒋은 μŠ΅κ΄€'에 κ°€μ€‘μΉ˜λ₯Ό μ£ΌλŠ” 보상 체계λ₯Ό μ μš©ν•¨. ## πŸ”— 지식 μ—°κ²° (Graph) - [[Reinforcement-Learning|Reinforcement-Learning]], [[Positive-Reinforcement|Positive-Reinforcement]], [[Markov-Decision-Process-MDP|Markov-Decision-Process-MDP]], [[Exploration-vs-Exploitation|Exploration-vs-Exploitation]] - **Raw Source:** 10_Wiki/Topics/AI/Reward-Shaping-in-RL.md