--- id: MATH-STAT-POWER-001 category: Unified confidence_score: 1.0 tags: [math, [[Statistics|Statistics]], statistical-power, type-2-error, sample-size, effect-size, data-[[Analysis|Analysis]]] last_reinforced: 2026-04-26 --- # Statistical Power (통계적 검정력) ## 📌 한 줄 통찰 (The Karpathy Summary) > "진실이 존재할 때 이를 확실히 감지해낼 확률을 확보하여, 귀한 통찰을 '우연'으로 치부해버리는 과오(Type II Error)를 방지하라" — 귀무가설이 실제로 거짓일 때 이를 올바르게 기각할 확률 ($1 - \beta$). ## 📖 구조화된 지식 (Synthesized Content) - **추출된 패턴:** "Sensitivity [[Optimization|Optimization]] and Error Minimization" — 실험 설계 단계에서 표본 크기(Sample Size)와 효과 크기(Effect Size)를 조절하여, 실제 존재하는 차이를 놓치지 않고 포착할 수 있는 충분한 통계적 '시력'을 확보하는 패턴. - **검정력에 영향을 주는 4대 요소:** - **Sample Size ($n$):** 표본이 많을수록 노이즈가 줄어들어 검정력이 높아짐. - **Effect Size ($d$):** 확인하려는 차이가 클수록 발견하기 쉬움. - **Significance Level ($\alpha$):** 1종 오류 허용 범위가 넓을수록 검정력은 높아짐 (Trade-off 관계). - **Variance ($\sigma^2$):** 데이터 자체의 변동성이 작을수록 차이를 선명히 파악 가능. - **의의:** 실험의 '성공 가능성'을 미리 계산(Power Analysis)하게 함으로써, 자원 낭비를 막고 과학적 결론의 신뢰도를 높이는 핵심 장치. ## ⚠️ 모순 및 업데이트 (Contradictions & RL Update) - **과거 데이터와의 충돌:** 단순히 P-value에만 집착하던 관행에서 벗어나, 이제는 "실험 결과가 유의미하지 않게 나왔을 때, 그것이 진짜 효과가 없어서인지 아니면 검정력이 부족해서였는지"를 반드시 따져보는 것이 현대 데이터 분석의 윤리적 가이드라인이 됨. - **정책 변화:** Antigravity 프로젝트는 에이전트의 마이너 업데이트에 대한 A/B 테스트 설계 시, 최소 80% 이상의 검정력을 확보할 수 있는 표본 크기를 사전에 산출하여 실험의 유효성을 담보함. ## 🔗 지식 연결 (Graph) - [[Statistical-Hypothesis-Testing|Statistical-Hypothesis-Testing]], [[Standard-Deviation-and-Variance|Standard-Deviation-and-Variance]], [[Performance-Metrics-in-AI|Performance-Metrics-in-AI]], [[Sampling-Techniques|Sampling-Techniques]] - **Raw Source:** 10_Wiki/Topics/AI/Statistical-Power.md