"매 sampling 은 population 의 representative slice 를 얻는 art". Neyman (1934) 의 stratified sampling formalization 부터 매 modern MCMC (NUTS, HMC, SMC) 까지 — 매 statistics, ML 의 LLM-RLHF preference dataset 까지 backbone. 2026 에 Anthropic, OpenAI 의 RLAIF pipeline 도 매 stratified human-preference sampling 의 위에 동작.
매 핵심
매 Probability sampling family
Simple Random: 매 uniform pick — baseline 이지만 small subgroup 누락 위험.
Stratified: population 을 stratum 으로 partition, 매 stratum 당 SRS — variance reduction.
Cluster: cluster 단위 pick (e.g. zipcode) — 매 cost↓ but design-effect↑.
Systematic: every k-th — 매 list 가 random 일 때 유효, periodicity 시 bias.
Multistage: cluster → stratified → SRS — 매 national survey 의 표준.
매 Non-probability (use with care)
Convenience: 매 quickest, biased.
Snowball: 매 hidden population (e.g. underground community).
Quota: 매 demographic match 강제 — Online panel 에서 흔함.
매 Monte Carlo / MCMC
Importance: q(x) 에서 sample 후 w=p/q reweight.
Rejection: accept iff u·M·q(x) ≤ p(x).
MH/HMC/NUTS: 매 high-dim posterior — Stan, NumPyro, BlackJAX 의 default.
SMC: 매 sequential Bayes (particle filter generalization).
매 응용
RLHF preference data — 매 stratified by task family.
A/B test bucketing — 매 hash-mod stratify on user_id.
Image diffusion — 매 latent prior sampling (DDIM, EDM2).
NN training mini-batch — 매 weighted sampler for class imbalance.