Files
2nd/10_Wiki/Topics/AI_and_ML/Overfitting-and-Underfitting.md
T

3.6 KiB

id, title, category, status, canonical_id, aliases, duplicate_of, source_trust_level, confidence_score, tags, raw_sources, last_reinforced, github_commit, inferred_by
id title category status canonical_id aliases duplicate_of source_trust_level confidence_score tags raw_sources last_reinforced github_commit inferred_by
wiki-2026-0508-overfitting-and-underfitting Overfitting and Underfitting 10_Wiki/Topics needs_review self
ML-FIT-001
none A 1.0
machine-learning
Overfitting
underfitting
Bias-Variance-Tradeoff
Regularization
generalization
2026-04-26 pending Claude Opus 4.7 (auto-normalize 2026-05-08)

Overfitting and Underfitting (과적합과 과소적합)

📌 한 줄 통찰 (The Karpathy Summary)

"데이터를 통째로 외우는 '편협함'과 본질조차 파악 못 하는 '무지' 사이의 좁은 길(Generalization)을 찾아라" — 모델이 학습 데이터에 너무 과하게 맞추어져 실전에서 성능이 떨어지는 현상(Overfitting)과, 데이터의 기본 패턴조차 제대로 학습하지 못한 현상(Underfitting).

📖 구조화된 지식 (Synthesized Content)

  • 추출된 패턴: "Bias-Variance Tradeoff" — 모델이 단순할수록 발생하는 '편향(Bias)' 에러와 모델이 복잡할수록 발생하는 '분산(Variance)' 에러 사이의 총합을 최소화하여, 보지 못한 데이터에 대해서도 높은 성능을 유지하게 만드는 일반화 패턴.
  • 주요 해결책:
    • Overfitting 해결: 데이터 증강(Augmentation), 규제(L1/L2), 드롭아웃(Dropout), 조기 종료(Early Stopping). 모델을 더 '차분하게' 만듦.
    • Underfitting 해결: 모델 복잡도 증가, 더 많은 학습 반복, 특징 공학(Feature Engineering)을 통한 정보 보강. 모델을 더 '똑똑하게' 만듦.
  • 의의: AI 모델의 성능을 평가할 때 단순한 정확도가 아닌 '학습 곡선(Learning Curve)'을 통해 모델의 현재 상태를 진단하고 처방을 내리는 결정적인 기준.

⚠️ 모순 및 업데이트 (Contradictions & Updates)

  • 과거 데이터와의 충돌: 과적합은 무조건 피해야 할 악으로 여겨졌으나, 최근 초거대 모델(LLM)에서는 학습 데이터를 완전히 외우는 단계를 넘어 더 학습시킬 때 오히려 일반화 성능이 다시 좋아지는 '더블 디센트(Double Descent)' 현상이 발견되어 최적화 전략의 패러다임이 변하고 있음.
  • 정책 변화: Antigravity 프로젝트는 에이전트의 학습 과정에서 검증 오차(Validation Loss)가 상승하는 지점을 실시간 모니터링하여, 최적의 일반화 시점에서 학습을 종료하는 자동 조기 종료 프로토콜을 적용함.

🔗 지식 연결 (Graph)

🤖 LLM 활용 힌트 (How to Use This Knowledge)

언제 이 지식을 쓰는가:

  • (TODO)

언제 쓰면 안 되는가:

  • (TODO)

🧪 검증 상태 (Validation)

  • 정보 상태: needs_review
  • 출처 신뢰도: A
  • 검토 이유: (P-Reinforce Phase 1 자동 정규화. 본문 검증 필요.)

🧬 중복 검사 (Duplicate Check)

  • 기존 유사 문서: (TODO: 인덱서 클러스터 리포트 참조)
  • 처리 방식: UPDATE (자동 정규화)
  • 처리 이유: Phase 1 정규화 — 옛 템플릿/누락 필드 보강.

🕓 변경 이력 (Changelog)

날짜 변경 내용 처리 방식 신뢰도
2026-05-08 P-Reinforce Phase 1 정규화 (frontmatter + 헤더 표준화) UPDATE A