--- id: PSYCH-POS-REINF-001 category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 1.0 tags: [psychology, ai, reinforcement-learning, positive-reinforcement, behaviorism, reward-design] last_reinforced: 2026-04-26 --- # Positive Reinforcement (정적 κ°•ν™”) ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "λ°”λžŒμ§ν•œ ν–‰λ™μ˜ 끝에 'λ‹¬μ½€ν•œ 보상'을 λ°°μΉ˜ν•˜μ—¬, μ—μ΄μ „νŠΈκ°€ 슀슀둜 졜적의 길을 μ—΄λ§ν•˜κ²Œ ν•˜λΌ" β€” νŠΉμ • 행동 뒀에 긍정적인 자극(보상)을 μ œκ³΅ν•¨μœΌλ‘œμ¨ ν•΄λ‹Ή 행동이 λ―Έλž˜μ— λ‹€μ‹œ λ°œμƒν•  ν™•λ₯ μ„ λ†’μ΄λŠ” 심리학적 μ›λ¦¬μ΄μž κ°•ν™”ν•™μŠ΅μ˜ 핡심 λ©”μ»€λ‹ˆμ¦˜. ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) - **μΆ”μΆœλœ νŒ¨ν„΄:** "Target Behavior and Reward Feedback Loop" β€” μ—μ΄μ „νŠΈκ°€ λͺ©ν‘œμ— λΆ€ν•©ν•˜λŠ” μƒνƒœμ— λ„λ‹¬ν•˜κ±°λ‚˜ μ•‘μ…˜μ„ μˆ˜ν–‰ν–ˆμ„ λ•Œ 즉각적인 수치적 보상을 λΆ€μ—¬ν•˜κ³ , λͺ¨λΈμ΄ 이 λ³΄μƒμ˜ 총합(Return)을 μ΅œλŒ€ν™”ν•˜λŠ” λ°©ν–₯으둜 μžμ‹ μ˜ 정책을 슀슀둜 μˆ˜μ •ν•˜κ²Œ λ§Œλ“œλŠ” νŒ¨ν„΄. - **핡심 μš”μ†Œ:** - **Reinforcer (κ°•ν™”λ¬Ό):** 보상 κ·Έ 자체 (예: 점수, μΉ­μ°¬, 토큰). - **Timing:** 행동 μ§ν›„μ˜ 즉각적인 보상이 ν•™μŠ΅ νš¨μœ¨μ„ κ·ΉλŒ€ν™”ν•¨. - **Reward Shaping:** λ³΅μž‘ν•œ λͺ©ν‘œλ₯Ό λ‹¬μ„±ν•˜κΈ° μœ„ν•΄ μž‘μ€ 단계별 성곡에도 보상을 μͺΌκ°œμ–΄ λ°°μΉ˜ν•˜λŠ” 기술. - **의의:** AIμ—κ²Œ '무엇을 ν•˜μ§€ 마라'λŠ” κΈˆμ§€ λͺ…령보닀 '이것을 ν•˜λ©΄ μ’‹λ‹€'λŠ” 긍정적 μœ μΈμ„ μ œκ³΅ν•  λ•Œ 훨씬 더 창의적이고 효율적인 문제 ν•΄κ²° μ „λž΅μ΄ 창발됨. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌:** 보상이 λ„ˆλ¬΄ 편ν–₯되면 μ—μ΄μ „νŠΈκ°€ λ³΄μƒλ§Œ λ”°λ¨Ήκ³  μ‹€μ „ μ„±κ³ΌλŠ” λ‚΄μ§€ μ•ŠλŠ” '보상 ν•΄ν‚Ή(Reward Hacking)'에 빠질 수 μžˆμŒμ„ μΈμ§€ν•˜κ³ , ν˜„λŒ€ AIμ—μ„œλŠ” 내적 동기(Intrinsic Motivation)λ‚˜ ν˜ΈκΈ°μ‹¬(Curiosity) 기반의 정적 κ°•ν™” λͺ¨λΈμ΄ μ—°κ΅¬λ˜κ³  있음. - **μ •μ±… λ³€ν™”:** Antigravity ν”„λ‘œμ νŠΈλŠ” μ—μ΄μ „νŠΈκ°€ μ‚¬μš©μžμ—κ²Œ μœ μš©ν•œ 정보λ₯Ό μ œκ³΅ν•˜κ±°λ‚˜ μ •ν™•ν•œ μ½”λ“œλ₯Ό μƒμ„±ν–ˆμ„ λ•Œ 긍정적인 ν”Όλ“œλ°± 점수λ₯Ό λΆ€μ—¬ν•˜μ—¬, μ—μ΄μ „νŠΈμ˜ 응닡 ν’ˆμ§ˆμ„ 상ν–₯ ν‰μ€€ν™”ν•˜λŠ” 정적 κ°•ν™” 루프λ₯Ό μš΄μš©ν•¨. ## πŸ”— 지식 μ—°κ²° (Graph) - [[Reinforcement-Learning]], [[Policy-Gradient-Methods]], [[Monte-Carlo-Tree-Search-MCTS]], Expected-Utility-Theory - **Raw Source:** 10_Wiki/Topics/AI/Positive-Reinforcement.md