2.1 KiB
2.1 KiB
id, category, confidence_score, tags, last_reinforced
| id | category | confidence_score | tags | last_reinforced | ||||||
|---|---|---|---|---|---|---|---|---|---|---|
| MATH-KDE-001 | 10_Wiki/💡 Topics/AI | 1.0 |
|
2026-04-26 |
Kernel Density Estimation (KDE, 커널 밀도 추정)
📌 한 줄 통찰 (The Karpathy Summary)
"데이터라는 개별 점들에 부드러운 산 모양의 확률을 씌워, 전체의 흐름을 보여주는 부드러운 능선을 그려라" — 유한한 표본 데이터를 바탕으로 모집단의 확률 밀도 함수(PDF)를 부드럽게 추정하여 데이터의 분포 특성을 파악하는 기계학습 및 통계학의 핵심 도구.
📖 구조화된 지식 (Synthesized Content)
- 추출된 패턴: "Smoothing and Summation" — 각 데이터 포인트 위치에 커널 함수(주로 가우시안)를 배치하고, 이들을 모두 합산하여 데이터가 밀집된 곳은 높게, 희소한 곳은 낮게 표현하는 공간적 밀도 추론 패턴.
- 주요 구성 요소:
- Kernel Function: 데이터의 영향력을 주변으로 퍼뜨리는 함수 형태.
- Bandwidth (
h): 함수의 넓이(매끄러움)를 조절하는 파라미터. $h$가 너무 작으면 과적합(Overfitting), 너무 크면 분포가 뭉개짐(Underfitting).
- 의의: 히스토그램과 달리 빈(Bin)의 크기나 시작점에 민감하지 않으며, 데이터의 실제 분포 형태를 훨씬 더 정확하게 반영할 수 있음.
⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- 과거 데이터와의 충돌: 단순한 시각화 도구로 여겨졌으나, 최근에는 이상치 탐지(Anomaly Detection)나 생성 모델(Generative Models)의 기초 이론으로 중요성이 다시 부각됨.
- 정책 변화: Antigravity 프로젝트는 에이전트의 응답 시간 분포를 분석하여 병목 구간을 시각화할 때, 히스토그램 대신 KDE 곡선을 사용하여 통계적 왜곡을 방지함.
🔗 지식 연결 (Graph)
- Probability-Theory, Exploratory-Data-Analysis, Anomaly-Detection-Foundations, Supervised-Learning-Foundations
- Raw Source: 10_Wiki/Topics/AI/Kernel-Density-Estimation-KDE.md