2nd/10_Wiki/Topics_Blog/Statistical-Learning-Theory.md

---
id: STAT-LEARN-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 1.0
tags: [math, machine-learning, statistics, generalization, learning-theory]
last_reinforced: 2026-04-26
---

# Statistical Learning Theory (통계적 학습 이론)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "모델이 데이터를 통해 지식을 얻는 과정의 수학적 한계를 규명하라" — 블라디미르 바프니크 등이 정립한, 유한한 데이터를 통해 학습된 모델이 새로운 데이터에서도 얼마나 잘 작동할지(일반화)를 확률적으로 보장하는 이론적 기초.

## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** 주어진 데이터셋에 대한 훈련 오차(Empirical Risk)와 실제 전체 데이터에 대한 오차(Structural Risk) 사이의 관계를 모델의 복잡도와 연계하여 최적의 균형을 찾는 통계적 추론 패턴.
- **핵심 개념:**
    - **VC Dimension (Vapnik–Chervonenkis):** 모델이 학습할 수 있는 함수들의 복잡도를 측정하는 척도.
    - **Structural Risk Minimization (SRM):** 모델의 오차와 복잡도를 동시에 최소화하여 일반화 성능을 극대화하는 원리.
    - **Empirical Risk Minimization (ERM):** 단순히 관측된 데이터에서의 오차만 줄이려는 시도. 과적합의 위험이 있음.
    - **PAC Learning (Probably Approximately Correct):** 충분한 데이터를 통해 높은 확률로 정답에 가까운 해를 찾을 수 있다는 이론적 근거 제공.

## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 단순히 알고리즘의 성능을 측정하던 수준에서, 머신러닝이 '왜' 그리고 '어떻게' 가능한지에 대한 근본적인 철학적/수학적 토대를 마련함.
- **정책 변화:** Antigravity 프로젝트의 모델 평가 지표 수립 시, 통계적 학습 이론에 근거하여 훈련 데이터와 검증 데이터 사이의 '일반화 격차(Generalization Gap)'를 엄격히 관리함.

## 🔗 지식 연결 (Graph)
- Machine-Learning, [[Support-Vector-Machines]], [[Overfitting]], [[Information-Theory]]
- **Raw Source:** 10_Wiki/Topics/AI/Statistical-Learning-Theory.md