Files
2nd/AI/Data Cleaning Algorithms.md
T

1.6 KiB

id, category, confidence_score, tags, last_reinforced
id category confidence_score tags last_reinforced
P-REINFORCE-AI-DATA-CLEAN 10_Wiki/💡 Topics/AI 0.97
Data Cleaning
Machine Learning
Data Quality
Preprocessing
2026-04-20

Data-Cleaning-Algorithms (데이터 정제 알고리즘)

📌 한 줄 통찰 (The Karpathy Summary)

"품질이 성능을 이긴다." 모델의 구조를 바꾸는 것보다 데이터 속의 노이즈와 중복을 제거하는 것이 AI 성능 향상에 훨씬 더 드라마틱한 결과(Data-centric AI)를 준다.

📖 구조화된 지식 (Synthesized Content)

  • Outlier Detection:
    • 통계적 기법(Z-score, IQR) 또는 머신러닝(Isolation Forest)을 통해 정상 범위를 벗어난 이상치를 탐지하고 처리한다.
  • Handling Missing Values:
    • 비어있는 값을 평균값으로 채울지, 아니면 예측 모델을 통해 추론해서 채울지(Imputation) 전략을 수립한다.
  • Normalization & Scaling:
    • 데이터의 수치가 너무 제각각이면 학습이 불안정해지므로, 일정한 범위(0~1 등)로 맞추는 스케일링 과정이 필수적이다.

⚠️ 모순 및 업데이트 (RL Update)

  • 무조건적인 데이터 삭제는 '중요한 예외 상황(Edge case)' 정보까지 날려버릴 수 있다. 특히 사고 예방이 중요한 보안이나 자율주행 분야에서는 이상 데이터를 버리기보다, 그것이 왜 발생했는지 분석하는 프로세스가 병행되어야 한다.

🔗 지식 연결 (Graph)