"매 reward prediction error 의 neural currency". 매 Dopamine (DA) signaling 은 mesolimbic + nigrostriatal pathway 에서 phasic burst 로 actual − expected reward (RPE) 를 broadcast — 매 Schultz 1997 의 landmark finding 이 modern reinforcement learning + addiction model 의 bridge. 매 2026 의 frontier 는 multi-dimensional DA (D1/D2 receptor, axonal vs somatic, microcircuit) 의 dissection.
매 핵심
매 pathway
Mesolimbic (VTA → NAc): 매 reward, motivation, addiction.
Mesocortical (VTA → PFC): 매 cognition, working memory.
Nigrostriatal (SNc → dorsal striatum): 매 motor learning, habit.
Tuberoinfundibular (hypothalamus → pituitary): 매 prolactin inhibition.
매 RPE encoding
Phasic burst: 매 unexpected reward → DA 의 firing rate ↑.
Phasic dip: 매 omitted expected reward → firing 의 below-baseline.
CS-shift: 매 conditioning 의 결과 — burst 의 reward 시점에서 cue 시점으로 shift.
Tonic level: 매 background motivation, vigor.
매 receptor 타입
D1-like (D1, D5): Gs-coupled, cAMP↑, direct pathway, "Go".
defconditioning(trials=200,cs_step=10,us_step=20,alpha=0.2,gamma=0.9):"""RPE 가 US 에서 CS 시점으로 shift 하는지 확인."""V=np.zeros(30)history=[]fortrialinrange(trials):r=np.zeros(30);r[us_step]=1.0fortinrange(29):rpe=r[t]+gamma*V[t+1]-V[t]V[t]+=alpha*rpeiftin(cs_step,us_step):history.append((trial,t,rpe))returnhistory# late trials: cs_step burst, us_step ≈ 0
defvigor_modulated_action(action_values,tonic_da,beta=2.0):"""Niv 2007: tonic DA → response rate."""p=np.exp(beta*tonic_da*action_values)returnp/p.sum()
패턴 5: Distributional RPE (Dabney 2020 finding)
importtorchimporttorch.nn.functionalasFclassDistributionalDA(torch.nn.Module):"""다양한 optimism 의 DA neuron population."""def__init__(self,n_neurons=20):super().__init__()self.taus=torch.linspace(0.1,0.9,n_neurons)self.values=torch.nn.Parameter(torch.zeros(n_neurons))defupdate(self,reward,lr=0.1):delta=reward-self.values# asymmetric update per neuronwithtorch.no_grad():self.values+=lr*torch.where(delta>0,self.taus*delta,(1-self.taus)*delta)
매 결정 기준
상황
Approach
Behavioral RL model
TD(λ) / Q-learning, scalar RPE
Asymmetric learning bias 모델
D1/D2 dual-pathway
Vigor / response rate 모델
tonic DA + beta scaling
Risk-sensitive / distributional
distributional RL (Dabney 2020)
Clinical Parkinson
SNc loss + L-DOPA pharmacology
Addiction model
mesolimbic phasic 의 hijack + tolerance
기본값: TD(0) scalar RPE 의 baseline. 매 D1/D2 의 추가 시점은 asymmetric bias 가 핵심인 task.
언제: literature review (RPE, distributional DA), modeling hypothesis generation, neurobiology + RL bridge 의 explanation.
언제 X: 매 clinical diagnosis / prescription — 매 neurologist 의 영역.
❌ 안티패턴
Scalar oversimplification: 매 single RPE channel 가정 — distributional + multi-receptor reality 의 무시.
DA = pleasure 오해: 매 DA 는 prediction error / motivation, hedonic experience 는 opioid system.
Human ↔ rodent extrapolation: 매 microcircuit + receptor expression 의 species difference 의 무시.