28 lines
1.6 KiB
Markdown
28 lines
1.6 KiB
Markdown
---
|
|
id: P-REINFORCE-SCI-CONDITIONING
|
|
category: "10_Wiki/💡 Topics/Science"
|
|
confidence_score: 0.97
|
|
tags: [Conditioning, Behavioral Science, Learning, Psychology]
|
|
last_reinforced: 2026-04-20
|
|
---
|
|
|
|
# Conditioning-and-Learning (조건 형성과 학습)
|
|
|
|
## 📌 한 줄 통찰 (The Karpathy Summary)
|
|
> "행동은 보상의 결과물이다." 자극과 반응이 결합하여 습관이 되고, 보상의 타이밍에 따라 행동이 강화되거나 사라지는 메커니즘이다.
|
|
|
|
## 📖 구조화된 지식 (Synthesized Content)
|
|
- **Classical Conditioning (고전적 조건 형성)**:
|
|
- 비자발적 반사 반응 학습. 파블로프의 개 실험처럼 중립 자극이 무조건 자극과 결합하여 반응을 이끌어내는 방식.
|
|
- **Operant Conditioning (조작적 조건 형성)**:
|
|
- 자발적 행동 학습. 행동의 결과가 보상(강화)이면 반복하고, 처벌이면 멈추는 방식. 스키너의 실험이 대표적이다.
|
|
- **Variable Reward Schedule**:
|
|
- 보상을 가끔씩 예측 불가능하게 줄 때 행동이 가장 강력하게 유지된다(도박, 가챠 게임의 원리).
|
|
|
|
## ⚠️ 모순 및 업데이트 (RL Update)
|
|
- 인간은 단순히 보상에만 따라 움직이는 존재가 아니다(행동주의의 한계). 사회적 학습(관찰 학습)과 내면의 필터링이 작용한다. AI 분야의 강화학습(RL)은 이 조작적 조건 형성을 수학적으로 모델링하여 기계가 스스로 전략을 찾게 만든다.
|
|
|
|
## 🔗 지식 연결 (Graph)
|
|
- Related: [[Behavioral-Economics|Behavioral-Economics]] , Cognitive Evaluation Theory
|
|
- Foundation: Reinforcement Learning
|