Files
2nd/10_Wiki/Topics/Statistical-Learning-Theory.md
T

2.2 KiB
Raw Blame History

id, category, confidence_score, tags, last_reinforced
id category confidence_score tags last_reinforced
STAT-LEARN-001 10_Wiki/💡 Topics/AI 1.0
math
machine-learning
statistics
generalization
learning-theory
2026-04-26

Statistical Learning Theory (통계적 학습 이론)

📌 한 줄 통찰 (The Karpathy Summary)

"모델이 데이터를 통해 지식을 얻는 과정의 수학적 한계를 규명하라" — 블라디미르 바프니크 등이 정립한, 유한한 데이터를 통해 학습된 모델이 새로운 데이터에서도 얼마나 잘 작동할지(일반화)를 확률적으로 보장하는 이론적 기초.

📖 구조화된 지식 (Synthesized Content)

  • 추출된 패턴: 주어진 데이터셋에 대한 훈련 오차(Empirical Risk)와 실제 전체 데이터에 대한 오차(Structural Risk) 사이의 관계를 모델의 복잡도와 연계하여 최적의 균형을 찾는 통계적 추론 패턴.
  • 핵심 개념:
    • VC Dimension (VapnikChervonenkis): 모델이 학습할 수 있는 함수들의 복잡도를 측정하는 척도.
    • Structural Risk Minimization (SRM): 모델의 오차와 복잡도를 동시에 최소화하여 일반화 성능을 극대화하는 원리.
    • Empirical Risk Minimization (ERM): 단순히 관측된 데이터에서의 오차만 줄이려는 시도. 과적합의 위험이 있음.
    • PAC Learning (Probably Approximately Correct): 충분한 데이터를 통해 높은 확률로 정답에 가까운 해를 찾을 수 있다는 이론적 근거 제공.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

  • 과거 데이터와의 충돌: 단순히 알고리즘의 성능을 측정하던 수준에서, 머신러닝이 '왜' 그리고 '어떻게' 가능한지에 대한 근본적인 철학적/수학적 토대를 마련함.
  • 정책 변화: Antigravity 프로젝트의 모델 평가 지표 수립 시, 통계적 학습 이론에 근거하여 훈련 데이터와 검증 데이터 사이의 '일반화 격차(Generalization Gap)'를 엄격히 관리함.

🔗 지식 연결 (Graph)