--- id: wiki-2026-0508-sampling-techniques title: Sampling Techniques category: 10_Wiki/Topics status: needs_review canonical_id: self aliases: [MATH-SAMPLING-001] duplicate_of: none source_trust_level: A confidence_score: 1.0 tags: [math, Statistics, sampling, data-science, bootstrap, stratified-sampling, monte-carlo] raw_sources: [] last_reinforced: 2026-04-26 github_commit: pending inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08) tech_stack: language: unspecified framework: unspecified --- # Sampling Techniques (샘플링 기법) ## 📌 한 줄 통찰 (The Karpathy Summary) > "전체의 거대함에 압도되지 말고 대표성 있는 조각(Sample)을 정교하게 도려내어, 최소한의 자원으로 최대한의 진실을 추론하라" — 모집단 전체를 조사하는 대신 그 일부를 추출하여 전체의 특성을 파악하고 분석 효율을 극대화하는 통계적 방법론. ## 📖 구조화된 지식 (Synthesized Content) - **추출된 패턴:** "Representative Subset Extraction and Bias Mitigation" — 무작위성을 기반으로 하되, 데이터의 층(Strata)이나 구조를 고려하여 표본이 특정 집단에 편중되지 않게 함으로써 추론의 오차(Sampling Error)를 최소화하는 패턴. - **주요 기법:** - **Simple Random Sampling:** 모든 요소에게 동일한 추출 기회 부여. - **Stratified Sampling:** 모집단을 성격이 다른 그룹으로 나누고 각 그룹에서 비례하여 추출 (불균형 데이터 해결). - **Systematic Sampling:** 일정한 간격으로 추출. - **Importance Sampling:** 확률 분포가 희소한 지점의 샘플링 효율을 높이는 기법 (강화학습에서 활용). - **Bootstrap:** 중복 허용 샘플링 (앙상블 학습의 기초). - **의의:** 빅데이터 시대에도 전수 조사는 비용과 시간 면에서 불가능한 경우가 많으며, 샘플링은 데이터 분석과 머신러닝 학습의 속도와 타당성을 결정짓는 핵심 공정임. ## ⚠️ 모순 및 업데이트 (Contradictions & Updates) - **과거 데이터와의 충돌:** 단순히 많이 뽑는 것이 좋다는 생각에서 벗어나, 이제는 데이터의 양보다 '얼마나 편향되지 않게 뽑았는가'가 중요해졌으며, 생성 모델(GAN, Diffusion)의 출력 이미지를 고르는 정교한 샘플링 전략으로까지 확장됨. - **정책 변화:** Antigravity 프로젝트는 1,174개 지식 자산의 품질 검수 시, 시간 효율을 위해 전체의 5%를 층화 추출하여 정밀 검토하는 샘플링 기반의 품질 관리(QA) 프로토콜을 수행함. ## 🔗 지식 연결 (Graph) - Pre-Processing-Data-for-AI, [[Prioritized-Experience-Replay|Prioritized-Experience-Replay]], [[Random-Forest-Classifiers|Random-Forest-Classifiers]], [[Probability-Theory-Foundations|Probability-Theory-Foundations]] - **Raw Source:** 10_Wiki/Topics/AI/Sampling-Techniques.md ## 🤖 LLM 활용 힌트 (How to Use This Knowledge) **언제 이 지식을 쓰는가:** - *(TODO)* **언제 쓰면 안 되는가:** - *(TODO)* ## 🧪 검증 상태 (Validation) - **정보 상태:** needs_review - **출처 신뢰도:** A - **검토 이유:** *(P-Reinforce Phase 1 자동 정규화. 본문 검증 필요.)* ## 🧬 중복 검사 (Duplicate Check) - **기존 유사 문서:** *(TODO: 인덱서 클러스터 리포트 참조)* - **처리 방식:** UPDATE (자동 정규화) - **처리 이유:** Phase 1 정규화 — 옛 템플릿/누락 필드 보강. ## 🕓 변경 이력 (Changelog) | 날짜 | 변경 내용 | 처리 방식 | 신뢰도 | |------|-----------|-----------|--------| | 2026-05-08 | P-Reinforce Phase 1 정규화 (frontmatter + 헤더 표준화) | UPDATE | A | ## 💻 코드 패턴 (Code Patterns) **패턴 1:** *(TODO: 이 프로젝트 컨벤션 반영한 구조 스켈레톤)* ```text # TODO ``` ## 🤔 의사결정 기준 (Decision Criteria) **선택 A를 써야 할 때:** - *(TODO)* **선택 B를 써야 할 때:** - *(TODO)* **기본값:** > *(TODO)* ## ❌ 안티패턴 (Anti-Patterns) - **[안티패턴]:** *(TODO: 무엇을 하면 안 되는가 + 이유 + 대신 무엇을)*