Statistical Hypothesis Testing (통계적 가설 검정)

📌 한 줄 통찰 (The Karpathy Summary)

"데이터라는 증거를 토대로 '우연한 일치'인지 '필연적 사실'인지 판결을 내리고, 엄격한 확률적 잣대(P-value)를 통해 지식의 타당성을 입증하라" — 표본 데이터를 통해 모집단에 대한 가설이 통계적으로 유의미한지 판단하는 체계적인 의사결정 프로세스.

추출된 패턴: "Conflict-based Decision and Probability of Coincidence" — '효과가 없다'는 귀무가설(Null Hypothesis)을 세우고, 실제 데이터가 나타날 확률을 계산하여 그 확률이 매우 낮다면(유의 수준 미달) 귀무가설을 기각하고 대립가설(Alternative Hypothesis)을 채택하는 패턴.
핵심 구성 요소:
- Null Hypothesis (H_0): 현재의 지식이나 차이가 없다는 가정.
- Alternative Hypothesis (H_1): 입증하고 싶은 새로운 사실이나 차이가 있다는 가정.
- P-value: 귀무가설이 맞을 때, 관측된 데이터가 나타날 확률. 낮을수록 가설 기각의 근거가 됨.
- Significance Level (\alpha): 기각 여부를 결정하는 기준값 (주로 0.05).
의의: 주관적 판단을 배제하고 객관적 수치에 근거하여 과학적 발견, 신약의 효능, 마케팅 전략의 성공 여부 등을 확정 짓는 데이터 과학의 핵심 언어.

과거 데이터와의 충돌: 단순히 P-value가 0.05보다 작으면 성공이라는 'P-hacking'의 위험성이 제기되면서, 이제는 효과 크기(Effect Size)와 신뢰 구간(Confidence Interval)을 병행하여 실질적인 의미를 분석하는 것이 글로벌 연구 표준이 됨.
정책 변화: Antigravity 프로젝트는 에이전트의 새로운 추론 알고리즘 도입 시, 기존 알고리즘과의 품질 차이가 통계적으로 유의미한지 엄격한 가설 검정(A/B Test) 과정을 거쳐 검증함.

Statistical-Power, Standard-Deviation-and-Variance, Performance-Metrics-in-AI, A-B-Testing-Foundations
Raw Source: 10_Wiki/Topics/AI/Statistical-Hypothesis-Testing.md