[G1-Sync] Manual knowledge update
This commit is contained in:
@@ -1,8 +1,8 @@
|
||||
---
|
||||
id: P-REINFORCE-AUTO-CNRL-001
|
||||
id: [[P-Reinforce]]-AUTO-CNRL-001
|
||||
category: "10_Wiki/💡 Topics/AI"
|
||||
confidence_score: 0.94
|
||||
tags: [auto-reinforced, computational-neuroscience, reinforcement-learning, dopamine, brain-model, reward-prediction-error, neuroscience]
|
||||
tags: [auto-reinforced, computational-neuroscience, [[Reinforcement-Learning]], [[Dopamine]], brain-model, reward-prediction-error, neuroscience]
|
||||
last_reinforced: 2026-04-20
|
||||
---
|
||||
|
||||
@@ -16,9 +16,9 @@ last_reinforced: 2026-04-20
|
||||
|
||||
1. **도파민과 보상 예측 오차(RPE)**:
|
||||
* **Schultz의 발견**: 도파민 뉴런은 보상 그 자체보다 '기대했던 보상과 실제 보상의 차이'에 반응함.
|
||||
* **TD-Learning 연동**: 이는 인공지능의 시간차 학습(Temporal Difference Learning) 방식과 수학적으로 정확히 일치함. (Reinforcement Learning (RL)와 연결)
|
||||
* **TD-Learning 연동**: 이는 인공지능의 시간차 학습(Temporal Difference Learning) 방식과 수학적으로 정확히 일치함. ([[Reinforcement Learning (RL)]]와 연결)
|
||||
2. **왜 중요한가?**:
|
||||
* AI 알고리즘이 단순히 수학적 기교가 아니라 생물학적 타당성(Biological Plausibility)을 갖췄음을 증명하며, 역으로 뇌 질환(중독, 파킨슨 등)을 이해하는 강력한 모델을 제공하기 때문임. (Research-Framework와 연결)
|
||||
* AI 알고리즘이 단순히 수학적 기교가 아니라 생물학적 타당성(Bio[[Logic]]al Plausibility)을 갖췄음을 증명하며, 역으로 뇌 질환(중독, 파킨슨 등)을 이해하는 강력한 모델을 제공하기 때문임. ([[Re[[Search]]-Framework]]와 연결)
|
||||
|
||||
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
|
||||
- **과거 데이터와의 충돌**: 과거에는 단순 보상 정책(Scalar reward)만 중요하게 여겼으나, 현대 정책은 뇌가 미래의 다양한 가능성 정책을 한꺼번에 시뮬레이션하는 '분포적 강화학습(Distributional RL) 정책'을 사용한다는 사실을 발견함(RL Update).
|
||||
@@ -26,5 +26,5 @@ last_reinforced: 2026-04-20
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
- [[Reinforcement Learning (RL)]], [[Research-Framework]], Generalization, [[State-Space]], [[Sensitivity-Analysis]]
|
||||
- **Key Concepts**: Basal ganglia, Dopamine, Reward Prediction Error (RPE).
|
||||
- **Key Concepts**: Basal ganglia, Dopamine, [[Reward Prediction Error]] (RPE).
|
||||
---
|
||||
|
||||
Reference in New Issue
Block a user