2nd/AI/Data Cleaning Algorithms.md

---
id: P-REINFORCE-AI-DATA-CLEAN
category: "[[10_Wiki/💡 Topics/AI]]"
confidence_score: 0.97
tags: [Data Cleaning, Machine Learning, Data Quality, Preprocessing]
last_reinforced: 2026-04-20
---

# [[Data-Cleaning-Algorithms]] (데이터 정제 알고리즘)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "품질이 성능을 이긴다." 모델의 구조를 바꾸는 것보다 데이터 속의 노이즈와 중복을 제거하는 것이 AI 성능 향상에 훨씬 더 드라마틱한 결과(Data-centric AI)를 준다.

## 📖 구조화된 지식 (Synthesized Content)
- **Outlier Detection**:
    - 통계적 기법(Z-score, IQR) 또는 머신러닝(Isolation Forest)을 통해 정상 범위를 벗어난 이상치를 탐지하고 처리한다.
- **Handling Missing Values**:
    - 비어있는 값을 평균값으로 채울지, 아니면 예측 모델을 통해 추론해서 채울지(Imputation) 전략을 수립한다.
- **Normalization & Scaling**:
    - 데이터의 수치가 너무 제각각이면 학습이 불안정해지므로, 일정한 범위(0~1 등)로 맞추는 스케일링 과정이 필수적이다.

## ⚠️ 모순 및 업데이트 (RL Update)
- 무조건적인 데이터 삭제는 '중요한 예외 상황(Edge case)' 정보까지 날려버릴 수 있다. 특히 사고 예방이 중요한 보안이나 자율주행 분야에서는 이상 데이터를 버리기보다, 그것이 왜 발생했는지 분석하는 프로세스가 병행되어야 한다.

## 🔗 지식 연결 (Graph)
- Related: [[Information Theory]] , [[Reliability_Safety_First]]
- Foundation: [[Computational Thinking]]