"매 데이터의 uncertainty 를 정량화". Fisher–Neyman frequentist framework 부터 Gelman 2020s Bayesian workflow까지, 2026 현재 표준은 statsmodels + PyMC 5.x + ArviZ pipeline 으로 reproducible inference를 빌드하는 것이다.
매 핵심
매 두 paradigm
Frequentist: parameter 는 fixed, data 가 random. p-value, confidence interval, MLE.
언제: pipeline scaffolding, EDA narrative, model spec translation, plot 코드 생성.
언제 X: numerical p-value computation 직접 — library 사용. 매 LLM의 hallucinated stat 의 X.
❌ 안티패턴
p-hacking: 매 multiple test 후 cherry-pick — pre-registration + correction 필수.
CI vs PI 혼동: confidence interval ≠ prediction interval. 매 명확히 구분.
HARKing: hypothesis after results — exploratory vs confirmatory 분리.
Naive default prior: PyMC Normal(0, 100) 의 X — domain-informed weakly-informative prior.
n=30 rule: 매 myth — distribution shape 기반 결정.
🧪 검증 / 중복
Verified (Wasserman "All of Statistics", Gelman BDA3, statsmodels docs 0.14+, PyMC 5.x docs).