2.3 KiB
2.3 KiB
id, category, confidence_score, tags, last_reinforced
| id | category | confidence_score | tags | last_reinforced | |||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| STAT-LEARN-001 | 10_Wiki/💡 Topics/AI | 1.0 |
|
2026-04-26 |
Statistical Learning Theory (통계적 학습 이론)
📌 한 줄 통찰 (The Karpathy Summary)
"모델이 데이터를 통해 지식을 얻는 과정의 수학적 한계를 규명하라" — 블라디미르 바프니크 등이 정립한, 유한한 데이터를 통해 학습된 모델이 새로운 데이터에서도 얼마나 잘 작동할지(일반화)를 확률적으로 보장하는 이론적 기초.
📖 구조화된 지식 (Synthesized Content)
- 추출된 패턴: 주어진 데이터셋에 대한 훈련 오차(Empirical Risk)와 실제 전체 데이터에 대한 오차(Structural Risk) 사이의 관계를 모델의 복잡도와 연계하여 최적의 균형을 찾는 통계적 추론 패턴.
- 핵심 개념:
- VC Dimension (Vapnik–Chervonenkis): 모델이 학습할 수 있는 함수들의 복잡도를 측정하는 척도.
- Structural Risk Minimization (SRM): 모델의 오차와 복잡도를 동시에 최소화하여 일반화 성능을 극대화하는 원리.
- Empirical Risk Minimization (ERM): 단순히 관측된 데이터에서의 오차만 줄이려는 시도. 과적합의 위험이 있음.
- PAC Learning (Probably Approximately Correct): 충분한 데이터를 통해 높은 확률로 정답에 가까운 해를 찾을 수 있다는 이론적 근거 제공.
⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- 과거 데이터와의 충돌: 단순히 알고리즘의 성능을 측정하던 수준에서, 머신러닝이 '왜' 그리고 '어떻게' 가능한지에 대한 근본적인 철학적/수학적 토대를 마련함.
- 정책 변화: Antigravity 프로젝트의 모델 평가 지표 수립 시, 통계적 학습 이론에 근거하여 훈련 데이터와 검증 데이터 사이의 '일반화 격차(Generalization Gap)'를 엄격히 관리함.
🔗 지식 연결 (Graph)
- Machine-Learning, Support-Vector-Machines, Overfitting, Information-Theory
- Raw Source: 10_Wiki/Topics/AI/Statistical-Learning-Theory.md