feat: achieve 600 files milestone in AI knowledge base

This commit is contained in:
2026-04-20 19:10:32 +09:00
parent ed5140096e
commit ae1627c35b
713 changed files with 21197 additions and 1994 deletions
+20 -15
View File
@@ -1,27 +1,32 @@
---
id: P-REINFORCE-AI-DATA-CLEAN
id: P-REINFORCE-AUTO-DCAL-001
category: "[[10_Wiki/💡 Topics/AI]]"
confidence_score: 0.97
tags: [Data Cleaning, Machine Learning, Data Quality, Preprocessing]
confidence_score: 0.92
tags: [auto-reinforced, data-cleaning, data-preprocessing, algorithms, outliers, duplicate-detection]
last_reinforced: 2026-04-20
---
# [[Data-Cleaning-Algorithms]] (데이터 정제 알고리즘)
# [[Data Cleaning Algorithms]]
## 📌 한 줄 통찰 (The Karpathy Summary)
> "품질이 성능을 이긴다." 모델의 구조를 바꾸는 것보다 데이터 속의 노이즈 중복을 제거하는 것이 AI 성능 향상에 훨씬 더 드라마틱한 결과(Data-centric AI)를 준다.
> "지식의 필터링: 'Garbage In, Garbage Out'의 저주를 막기 위해, 데이터 속의 노이즈, 중복, 오류를 자동으로 식별하고 교정하여 AI가 오직 '정수(Essence)'만을 배울 수 있도록 닦고 조이는 지적 세척 공정."
## 📖 구조화된 지식 (Synthesized Content)
- **Outlier Detection**:
- 통계적 기법(Z-score, IQR) 또는 머신러닝(Isolation Forest)을 통해 정상 범위를 벗어난 이상치를 탐지하고 처리한다.
- **Handling Missing Values**:
- 비어있는 값을 평균값으로 채울지, 아니면 예측 모델을 통해 추론해서 채울지(Imputation) 전략을 수립한다.
- **Normalization & Scaling**:
- 데이터의 수치가 너무 제각각이면 학습이 불안정해지므로, 일정한 범위(0~1 등)로 맞추는 스케일링 과정이 필수적이다.
데이터 정제 알고리즘(Data Cleaning Algorithms)은 데이터셋의 품질을 높이기 위해 오류를 수정하고 일관성을 확보하는 기법들입니다.
## ⚠️ 모순 및 업데이트 (RL Update)
- 무조건적인 데이터 삭제는 '중요한 예외 상황(Edge case)' 정보까지 날려버릴 수 있다. 특히 사고 예방이 중요한 보안이나 자율주행 분야에서는 이상 데이터를 버리기보다, 그것이 왜 발생했는지 분석하는 프로세스가 병행되어야 한다.
1. **주요 태스크 및 알고리즘**:
* **Missing Value Imputation**: 평균, 최빈값 혹은 KNN/회귀 모델을 이용해 비어있는 값 채우기.
* **Outlier Detection**: Z-Score, Isolation Forest 등을 이용해 정상 범위를 크게 벗어난 이상치 제거. (Anomaly-Detection과 연결)
* **Deduplication (중복 제거)**: 해시 매칭이나 편집 거리(Levenshtein Distance)를 이용해 겹치는 데이터 제거.
* **Standardization**: 단위나 형식을 통일 (예: 날짜 포맷 통일).
2. **왜 중요한가?**:
* 전체 AI 프로젝트 시간의 80%를 차지하며, 모델의 성능 상한선을 결정짓는 가장 실무적인 영역임.
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌**: 과거에는 사람이 엑셀로 '눈대중 정제'를 하는 정책이었으나, 현대 정책은 수십억 개의 데이터를 직접 처리하는 '확률적 데이터 정제 정책'과 'AI를 이용한 AI 데이터 정제 정책'으로 자동화됨(RL Update).
- **정책 변화(RL Update)**: 거대 언어 모델 학습 시, 저품질 웹 텍스트를 걸러내기 위해 '지능형 분류기(Classifier)'를 통한 고품질 데이터 선별 정책이 모델의 성능을 결정하는 핵심 기밀 정책이 됨.
## 🔗 지식 연결 (Graph)
- Related: [[Information Theory]] , [[Reliability_Safety_First]]
- Foundation: [[Computational Thinking]]
- [[Anomaly-Detection]], [[Statistics & Data Analysis]], [[Optimization]], [[Quality Gates]], [[Signal in Noise]]
- **Modern Tech/Tools**: Pandas, Scikit-learn, Great Expectations, DVC.
---