Files
2nd/10_Wiki/Topics/AI/Kernel-Density-Estimation-KDE.md
T

2.2 KiB

id, category, confidence_score, tags, last_reinforced
id category confidence_score tags last_reinforced
MATH-KDE-001 10_Wiki/💡 Topics/AI 1.0
statistics
math
kde
density-estimation
data-visualization
probability
2026-04-26

Kernel Density Estimation (KDE, 커널 밀도 추정)

📌 한 줄 통찰 (The Karpathy Summary)

"데이터라는 개별 점들에 부드러운 산 모양의 확률을 씌워, 전체의 흐름을 보여주는 부드러운 능선을 그려라" — 유한한 표본 데이터를 바탕으로 모집단의 확률 밀도 함수(PDF)를 부드럽게 추정하여 데이터의 분포 특성을 파악하는 기계학습 및 통계학의 핵심 도구.

📖 구조화된 지식 (Synthesized Content)

  • 추출된 패턴: "Smoothing and Summation" — 각 데이터 포인트 위치에 커널 함수(주로 가우시안)를 배치하고, 이들을 모두 합산하여 데이터가 밀집된 곳은 높게, 희소한 곳은 낮게 표현하는 공간적 밀도 추론 패턴.
  • 주요 구성 요소:
    • Kernel Function: 데이터의 영향력을 주변으로 퍼뜨리는 함수 형태.
    • Bandwidth (h): 함수의 넓이(매끄러움)를 조절하는 파라미터. $h$가 너무 작으면 과적합(Overfitting), 너무 크면 분포가 뭉개짐(Underfitting).
  • 의의: 히스토그램과 달리 빈(Bin)의 크기나 시작점에 민감하지 않으며, 데이터의 실제 분포 형태를 훨씬 더 정확하게 반영할 수 있음.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

  • 과거 데이터와의 충돌: 단순한 시각화 도구로 여겨졌으나, 최근에는 이상치 탐지(Anomaly Detection)나 생성 모델(Generative Models)의 기초 이론으로 중요성이 다시 부각됨.
  • 정책 변화: Antigravity 프로젝트는 에이전트의 응답 시간 분포를 분석하여 병목 구간을 시각화할 때, 히스토그램 대신 KDE 곡선을 사용하여 통계적 왜곡을 방지함.

🔗 지식 연결 (Graph)