Sampling Techniques (샘플링 기법)

📌 한 줄 통찰 (The Karpathy Summary)

"전체의 거대함에 압도되지 말고 대표성 있는 조각(Sample)을 정교하게 도려내어, 최소한의 자원으로 최대한의 진실을 추론하라" — 모집단 전체를 조사하는 대신 그 일부를 추출하여 전체의 특성을 파악하고 분석 효율을 극대화하는 통계적 방법론.

추출된 패턴: "Representative Subset Extraction and Bias Mitigation" — 무작위성을 기반으로 하되, 데이터의 층(Strata)이나 구조를 고려하여 표본이 특정 집단에 편중되지 않게 함으로써 추론의 오차(Sampling Error)를 최소화하는 패턴.
주요 기법:
- Simple Random Sampling: 모든 요소에게 동일한 추출 기회 부여.
- Stratified Sampling: 모집단을 성격이 다른 그룹으로 나누고 각 그룹에서 비례하여 추출 (불균형 데이터 해결).
- Systematic Sampling: 일정한 간격으로 추출.
- Importance Sampling: 확률 분포가 희소한 지점의 샘플링 효율을 높이는 기법 (강화학습에서 활용).
- Bootstrap: 중복 허용 샘플링 (앙상블 학습의 기초).
의의: 빅데이터 시대에도 전수 조사는 비용과 시간 면에서 불가능한 경우가 많으며, 샘플링은 데이터 분석과 머신러닝 학습의 속도와 타당성을 결정짓는 핵심 공정임.

과거 데이터와의 충돌: 단순히 많이 뽑는 것이 좋다는 생각에서 벗어나, 이제는 데이터의 양보다 '얼마나 편향되지 않게 뽑았는가'가 중요해졌으며, 생성 모델(GAN, Diffusion)의 출력 이미지를 고르는 정교한 샘플링 전략으로까지 확장됨.
정책 변화: Antigravity 프로젝트는 1,174개 지식 자산의 품질 검수 시, 시간 효율을 위해 전체의 5%를 층화 추출하여 정밀 검토하는 샘플링 기반의 품질 관리(QA) 프로토콜을 수행함.

Pre-processing-Data-for-AI, Prioritized-Experience-Replay, Random-Forest-Classifiers, Probability-Theory-Foundations
Raw Source: 10_Wiki/Topics/AI/Sampling-Techniques.md