--- id: MATH-SAMPLING-001 category: Unified confidence_score: 1.0 tags: [math, [[Statistics|Statistics]], sampling, data-science, bootstrap, stratified-sampling, monte-carlo] last_reinforced: 2026-04-26 --- # Sampling Techniques (샘플링 기법) ## 📌 한 줄 통찰 (The Karpathy Summary) > "전체의 거대함에 압도되지 말고 대표성 있는 조각(Sample)을 정교하게 도려내어, 최소한의 자원으로 최대한의 진실을 추론하라" — 모집단 전체를 조사하는 대신 그 일부를 추출하여 전체의 특성을 파악하고 분석 효율을 극대화하는 통계적 방법론. ## 📖 구조화된 지식 (Synthesized Content) - **추출된 패턴:** "Representative Subset Extraction and Bias Mitigation" — 무작위성을 기반으로 하되, 데이터의 층(Strata)이나 구조를 고려하여 표본이 특정 집단에 편중되지 않게 함으로써 추론의 오차(Sampling Error)를 최소화하는 패턴. - **주요 기법:** - **Simple Random Sampling:** 모든 요소에게 동일한 추출 기회 부여. - **Stratified Sampling:** 모집단을 성격이 다른 그룹으로 나누고 각 그룹에서 비례하여 추출 (불균형 데이터 해결). - **Systematic Sampling:** 일정한 간격으로 추출. - **Importance Sampling:** 확률 분포가 희소한 지점의 샘플링 효율을 높이는 기법 (강화학습에서 활용). - **Bootstrap:** 중복 허용 샘플링 (앙상블 학습의 기초). - **의의:** 빅데이터 시대에도 전수 조사는 비용과 시간 면에서 불가능한 경우가 많으며, 샘플링은 데이터 분석과 머신러닝 학습의 속도와 타당성을 결정짓는 핵심 공정임. ## ⚠️ 모순 및 업데이트 (Contradictions & RL Update) - **과거 데이터와의 충돌:** 단순히 많이 뽑는 것이 좋다는 생각에서 벗어나, 이제는 데이터의 양보다 '얼마나 편향되지 않게 뽑았는가'가 중요해졌으며, 생성 모델(GAN, Diffusion)의 출력 이미지를 고르는 정교한 샘플링 전략으로까지 확장됨. - **정책 변화:** Antigravity 프로젝트는 1,174개 지식 자산의 품질 검수 시, 시간 효율을 위해 전체의 5%를 층화 추출하여 정밀 검토하는 샘플링 기반의 품질 관리(QA) 프로토콜을 수행함. ## 🔗 지식 연결 (Graph) - Pre-Processing-Data-for-AI, [[Prioritized-Experience-Replay|Prioritized-Experience-Replay]], [[Random-Forest-Classifiers|Random-Forest-Classifiers]], [[Probability-Theory-Foundations|Probability-Theory-Foundations]] - **Raw Source:** 10_Wiki/Topics/AI/Sampling-Techniques.md