2nd/10_Wiki/Topics/AI/Statistical-Hypothesis-Testing.md

---
id: MATH-STAT-TEST-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 1.0
tags: [math, statistics, hypothesis-testing, p-value, null-hypothesis, alternative-hypothesis, significance-level]
last_reinforced: 2026-04-26
---

# Statistical Hypothesis Testing (통계적 가설 검정)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "데이터라는 증거를 토대로 '우연한 일치'인지 '필연적 사실'인지 판결을 내리고, 엄격한 확률적 잣대(P-value)를 통해 지식의 타당성을 입증하라" — 표본 데이터를 통해 모집단에 대한 가설이 통계적으로 유의미한지 판단하는 체계적인 의사결정 프로세스.

## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** "Conflict-based Decision and Probability of Coincidence" — '효과가 없다'는 귀무가설(Null Hypothesis)을 세우고, 실제 데이터가 나타날 확률을 계산하여 그 확률이 매우 낮다면(유의 수준 미달) 귀무가설을 기각하고 대립가설(Alternative Hypothesis)을 채택하는 패턴.
- **핵심 구성 요소:**
    - **Null Hypothesis ($H_0$):** 현재의 지식이나 차이가 없다는 가정.
    - **Alternative Hypothesis ($H_1$):** 입증하고 싶은 새로운 사실이나 차이가 있다는 가정.
    - **P-value:** 귀무가설이 맞을 때, 관측된 데이터가 나타날 확률. 낮을수록 가설 기각의 근거가 됨.
    - **Significance Level ($\alpha$):** 기각 여부를 결정하는 기준값 (주로 0.05).
- **의의:** 주관적 판단을 배제하고 객관적 수치에 근거하여 과학적 발견, 신약의 효능, 마케팅 전략의 성공 여부 등을 확정 짓는 데이터 과학의 핵심 언어.

## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 단순히 P-value가 0.05보다 작으면 성공이라는 'P-hacking'의 위험성이 제기되면서, 이제는 효과 크기(Effect Size)와 신뢰 구간(Confidence Interval)을 병행하여 실질적인 의미를 분석하는 것이 글로벌 연구 표준이 됨.
- **정책 변화:** Antigravity 프로젝트는 에이전트의 새로운 추론 알고리즘 도입 시, 기존 알고리즘과의 품질 차이가 통계적으로 유의미한지 엄격한 가설 검정(A/B Test) 과정을 거쳐 검증함.

## 🔗 지식 연결 (Graph)
- [[Statistical-Power]], [[Standard-Deviation-and-Variance]], [[Performance-Metrics-in-AI]], A-B-Testing-Foundations
- **Raw Source:** 10_Wiki/Topics/AI/Statistical-Hypothesis-Testing.md