Files
2nd/10_Wiki/Topics/Computer_Science_and_Theory/Statistical-Hypothesis-Testing.md
T

2.6 KiB

id, category, confidence_score, tags, last_reinforced
id category confidence_score tags last_reinforced
MATH-STAT-TEST-001 Unified 1.0
math
Statistics|Statistics
Hypothesis-Testing|Hypothesis-Testing
p-value
null-hypothesis
alternative-hypothesis
significance-level
2026-04-26

Statistical Hypothesis Testing (통계적 가설 검정)

📌 한 줄 통찰 (The Karpathy Summary)

"데이터라는 증거를 토대로 '우연한 일치'인지 '필연적 사실'인지 판결을 내리고, 엄격한 확률적 잣대(P-value)를 통해 지식의 타당성을 입증하라" — 표본 데이터를 통해 모집단에 대한 가설이 통계적으로 유의미한지 판단하는 체계적인 의사결정 프로세스.

📖 구조화된 지식 (Synthesized Content)

  • 추출된 패턴: "Conflict-based Decision and Probability of Coincidence" — '효과가 없다'는 귀무가설(Null Hypothesis)을 세우고, 실제 데이터가 나타날 확률을 계산하여 그 확률이 매우 낮다면(유의 수준 미달) 귀무가설을 기각하고 대립가설(Alternative Hypothesis)을 채택하는 패턴.
  • 핵심 구성 요소:
    • Null Hypothesis (H_0): 현재의 지식이나 차이가 없다는 가정.
    • Alternative Hypothesis (H_1): 입증하고 싶은 새로운 사실이나 차이가 있다는 가정.
    • P-value: 귀무가설이 맞을 때, 관측된 데이터가 나타날 확률. 낮을수록 가설 기각의 근거가 됨.
    • Significance Level (\alpha): 기각 여부를 결정하는 기준값 (주로 0.05).
  • 의의: 주관적 판단을 배제하고 객관적 수치에 근거하여 과학적 발견, 신약의 효능, 마케팅 전략의 성공 여부 등을 확정 짓는 데이터 과학의 핵심 언어.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

  • 과거 데이터와의 충돌: 단순히 P-value가 0.05보다 작으면 성공이라는 'P-hacking'의 위험성이 제기되면서, 이제는 효과 크기(Effect Size)와 신뢰 구간(Confidence Interval)을 병행하여 실질적인 의미를 분석하는 것이 글로벌 연구 표준이 됨.
  • 정책 변화: Antigravity 프로젝트는 에이전트의 새로운 추론 알고리즘 도입 시, 기존 알고리즘과의 품질 차이가 통계적으로 유의미한지 엄격한 가설 검정(A/B Test) 과정을 거쳐 검증함.

🔗 지식 연결 (Graph)