--- id: STAT-LEARN-001 category: Unified confidence_score: 1.0 tags: [math, machine-learning, [[Statistics|Statistics]], generalization, learning-theory] last_reinforced: 2026-04-26 --- # Statistical Learning Theory (통계적 학습 이론) ## 📌 한 줄 통찰 (The Karpathy Summary) > "모델이 데이터를 통해 지식을 얻는 과정의 수학적 한계를 규명하라" — 블라디미르 바프니크 등이 정립한, 유한한 데이터를 통해 학습된 모델이 새로운 데이터에서도 얼마나 잘 작동할지(일반화)를 확률적으로 보장하는 이론적 기초. ## 📖 구조화된 지식 (Synthesized Content) - **추출된 패턴:** 주어진 데이터셋에 대한 훈련 오차(Empirical Risk)와 실제 전체 데이터에 대한 오차(Structural Risk) 사이의 관계를 모델의 복잡도와 연계하여 최적의 균형을 찾는 통계적 추론 패턴. - **핵심 개념:** - **VC Dimension (Vapnik–Chervonenkis):** 모델이 학습할 수 있는 함수들의 복잡도를 측정하는 척도. - **Structural Risk Minimization (SRM):** 모델의 오차와 복잡도를 동시에 최소화하여 일반화 성능을 극대화하는 원리. - **Empirical Risk Minimization (ERM):** 단순히 관측된 데이터에서의 오차만 줄이려는 시도. 과적합의 위험이 있음. - **PAC Learning (Probably Approximately Correct):** 충분한 데이터를 통해 높은 확률로 정답에 가까운 해를 찾을 수 있다는 이론적 근거 제공. ## ⚠️ 모순 및 업데이트 (Contradictions & RL Update) - **과거 데이터와의 충돌:** 단순히 알고리즘의 성능을 측정하던 수준에서, 머신러닝이 '왜' 그리고 '어떻게' 가능한지에 대한 근본적인 철학적/수학적 토대를 마련함. - **정책 변화:** Antigravity 프로젝트의 모델 평가 지표 수립 시, 통계적 학습 이론에 근거하여 훈련 데이터와 검증 데이터 사이의 '일반화 격차(Generalization Gap)'를 엄격히 관리함. ## 🔗 지식 연결 (Graph) - Machine-Learning, [[Support-Vector-Machines|Support-Vector-Machines]], [[Overfitting|Overfitting]], [[Information-Theory|Information-Theory]] - **Raw Source:** 10_Wiki/Topics/AI/Statistical-Learning-Theory.md