Files
2nd/10_Wiki/Topics/AI/Sampling-Techniques.md
T

31 lines
2.5 KiB
Markdown

---
id: MATH-SAMPLING-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 1.0
tags: [math, statistics, sampling, data-science, bootstrap, stratified-sampling, monte-carlo]
last_reinforced: 2026-04-26
---
# Sampling Techniques (샘플링 기법)
## 📌 한 줄 통찰 (The Karpathy Summary)
> "전체의 거대함에 압도되지 말고 대표성 있는 조각(Sample)을 정교하게 도려내어, 최소한의 자원으로 최대한의 진실을 추론하라" — 모집단 전체를 조사하는 대신 그 일부를 추출하여 전체의 특성을 파악하고 분석 효율을 극대화하는 통계적 방법론.
## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** "Representative Subset Extraction and Bias Mitigation" — 무작위성을 기반으로 하되, 데이터의 층(Strata)이나 구조를 고려하여 표본이 특정 집단에 편중되지 않게 함으로써 추론의 오차(Sampling Error)를 최소화하는 패턴.
- **주요 기법:**
- **Simple Random Sampling:** 모든 요소에게 동일한 추출 기회 부여.
- **Stratified Sampling:** 모집단을 성격이 다른 그룹으로 나누고 각 그룹에서 비례하여 추출 (불균형 데이터 해결).
- **Systematic Sampling:** 일정한 간격으로 추출.
- **Importance Sampling:** 확률 분포가 희소한 지점의 샘플링 효율을 높이는 기법 (강화학습에서 활용).
- **Bootstrap:** 중복 허용 샘플링 (앙상블 학습의 기초).
- **의의:** 빅데이터 시대에도 전수 조사는 비용과 시간 면에서 불가능한 경우가 많으며, 샘플링은 데이터 분석과 머신러닝 학습의 속도와 타당성을 결정짓는 핵심 공정임.
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 단순히 많이 뽑는 것이 좋다는 생각에서 벗어나, 이제는 데이터의 양보다 '얼마나 편향되지 않게 뽑았는가'가 중요해졌으며, 생성 모델(GAN, Diffusion)의 출력 이미지를 고르는 정교한 샘플링 전략으로까지 확장됨.
- **정책 변화:** Antigravity 프로젝트는 1,174개 지식 자산의 품질 검수 시, 시간 효율을 위해 전체의 5%를 층화 추출하여 정밀 검토하는 샘플링 기반의 품질 관리(QA) 프로토콜을 수행함.
## 🔗 지식 연결 (Graph)
- [[Pre-processing-Data-for-AI]], [[Prioritized-Experience-Replay]], [[Random-Forest-Classifiers]], [[Probability-Theory-Foundations]]
- **Raw Source:** 10_Wiki/Topics/AI/Sampling-Techniques.md