Files
2nd/10_Wiki/Topics_Blog/Statistical-Learning-Theory.md
T

29 lines
2.2 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
id: STAT-LEARN-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 1.0
tags: [math, machine-learning, statistics, generalization, learning-theory]
last_reinforced: 2026-04-26
---
# Statistical Learning Theory (통계적 학습 이론)
## 📌 한 줄 통찰 (The Karpathy Summary)
> "모델이 데이터를 통해 지식을 얻는 과정의 수학적 한계를 규명하라" — 블라디미르 바프니크 등이 정립한, 유한한 데이터를 통해 학습된 모델이 새로운 데이터에서도 얼마나 잘 작동할지(일반화)를 확률적으로 보장하는 이론적 기초.
## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** 주어진 데이터셋에 대한 훈련 오차(Empirical Risk)와 실제 전체 데이터에 대한 오차(Structural Risk) 사이의 관계를 모델의 복잡도와 연계하여 최적의 균형을 찾는 통계적 추론 패턴.
- **핵심 개념:**
- **VC Dimension (VapnikChervonenkis):** 모델이 학습할 수 있는 함수들의 복잡도를 측정하는 척도.
- **Structural Risk Minimization (SRM):** 모델의 오차와 복잡도를 동시에 최소화하여 일반화 성능을 극대화하는 원리.
- **Empirical Risk Minimization (ERM):** 단순히 관측된 데이터에서의 오차만 줄이려는 시도. 과적합의 위험이 있음.
- **PAC Learning (Probably Approximately Correct):** 충분한 데이터를 통해 높은 확률로 정답에 가까운 해를 찾을 수 있다는 이론적 근거 제공.
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 단순히 알고리즘의 성능을 측정하던 수준에서, 머신러닝이 '왜' 그리고 '어떻게' 가능한지에 대한 근본적인 철학적/수학적 토대를 마련함.
- **정책 변화:** Antigravity 프로젝트의 모델 평가 지표 수립 시, 통계적 학습 이론에 근거하여 훈련 데이터와 검증 데이터 사이의 '일반화 격차(Generalization Gap)'를 엄격히 관리함.
## 🔗 지식 연결 (Graph)
- Machine-Learning, [[Support-Vector-Machines]], [[Overfitting]], [[Information-Theory]]
- **Raw Source:** 10_Wiki/Topics/AI/Statistical-Learning-Theory.md