[G1-Sync] Manual knowledge update

2026-04-30 22:42:02 +09:00
parent 0bd4f19e38
commit c36c0644a1
4888 changed files with 18470 additions and 18602 deletions
@@ -1,8 +1,8 @@
 ---
-id: P-REINFORCE-AUTO-CNRL-001
+id: [[P-Reinforce]]-AUTO-CNRL-001
 category: "10_Wiki/💡 Topics/AI"
 confidence_score: 0.94
-tags: [auto-reinforced, computational-neuroscience, reinforcement-learning, dopamine, brain-model, reward-prediction-error, neuroscience]
+tags: [auto-reinforced, computational-neuroscience, [[Reinforcement-Learning]], [[Dopamine]], brain-model, reward-prediction-error, neuroscience]
 last_reinforced: 2026-04-20
 ---

@@ -16,9 +16,9 @@ last_reinforced: 2026-04-20

 1.  **도파민과 보상 예측 오차(RPE)**:
    *   **Schultz의 발견**: 도파민 뉴런은 보상 그 자체보다 '기대했던 보상과 실제 보상의 차이'에 반응함.
-    *   **TD-Learning 연동**: 이는 인공지능의 시간차 학습(Temporal Difference Learning) 방식과 수학적으로 정확히 일치함. (Reinforcement Learning (RL)와 연결)
+    *   **TD-Learning 연동**: 이는 인공지능의 시간차 학습(Temporal Difference Learning) 방식과 수학적으로 정확히 일치함. ([[Reinforcement Learning (RL)]]와 연결)
 2.  **왜 중요한가?**:
-    *   AI 알고리즘이 단순히 수학적 기교가 아니라 생물학적 타당성(Biological Plausibility)을 갖췄음을 증명하며, 역으로 뇌 질환(중독, 파킨슨 등)을 이해하는 강력한 모델을 제공하기 때문임. (Research-Framework와 연결)
+    *   AI 알고리즘이 단순히 수학적 기교가 아니라 생물학적 타당성(Bio[[Logic]]al Plausibility)을 갖췄음을 증명하며, 역으로 뇌 질환(중독, 파킨슨 등)을 이해하는 강력한 모델을 제공하기 때문임. ([[Re[[Search]]-Framework]]와 연결)

 ## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
 - **과거 데이터와의 충돌**: 과거에는 단순 보상 정책(Scalar reward)만 중요하게 여겼으나, 현대 정책은 뇌가 미래의 다양한 가능성 정책을 한꺼번에 시뮬레이션하는 '분포적 강화학습(Distributional RL) 정책'을 사용한다는 사실을 발견함(RL Update).
@@ -26,5 +26,5 @@ last_reinforced: 2026-04-20

 ## 🔗 지식 연결 (Graph)
 - [[Reinforcement Learning (RL)]], [[Research-Framework]], Generalization, [[State-Space]], [[Sensitivity-Analysis]]
- **Key Concepts**: Basal ganglia, Dopamine, Reward Prediction Error (RPE).
+- **Key Concepts**: Basal ganglia, Dopamine, [[Reward Prediction Error]] (RPE).
 ---