"매 reward prediction error 의 signal". 매 dopamine 의 modern view 는 pleasure 의 X, 매 expected vs actual reward 의 차이 의 broadcast. 매 Schultz (1997) 의 monkey VTA recording 의 RL 의 TD-error 의 isomorphism 의 establish. 매 product UX, addiction design, RL algorithm 의 shared substrate.
매 핵심
매 RPE (Reward Prediction Error)
Positive RPE: 매 expected 보다 better. 매 dopamine burst.
Zero RPE: 매 fully predicted. 매 baseline firing.
Negative RPE: 매 expected 보다 worse. 매 firing dip.
매 RL 의 TD-error 와 의 mapping
매 δ = r + γV(s') − V(s).
매 dopamine neuron 의 firing rate 의 δ 의 encode (Schultz, Dayan, Montague 1997).
매 응용
Variable-ratio schedule (slot machine, social media feed) — 매 maximal RPE.
Habit formation (intermittent reward).
Anhedonia / addiction 의 dopaminergic dysregulation.