1.6 KiB
1.6 KiB
id, category, confidence_score, tags, last_reinforced
| id | category | confidence_score | tags | last_reinforced | ||||
|---|---|---|---|---|---|---|---|---|
| P-REINFORCE-AI-DATA-CLEAN | 10_Wiki/💡 Topics/AI | 0.97 |
|
2026-04-20 |
Data-Cleaning-Algorithms (데이터 정제 알고리즘)
📌 한 줄 통찰 (The Karpathy Summary)
"품질이 성능을 이긴다." 모델의 구조를 바꾸는 것보다 데이터 속의 노이즈와 중복을 제거하는 것이 AI 성능 향상에 훨씬 더 드라마틱한 결과(Data-centric AI)를 준다.
📖 구조화된 지식 (Synthesized Content)
- Outlier Detection:
- 통계적 기법(Z-score, IQR) 또는 머신러닝(Isolation Forest)을 통해 정상 범위를 벗어난 이상치를 탐지하고 처리한다.
- Handling Missing Values:
- 비어있는 값을 평균값으로 채울지, 아니면 예측 모델을 통해 추론해서 채울지(Imputation) 전략을 수립한다.
- Normalization & Scaling:
- 데이터의 수치가 너무 제각각이면 학습이 불안정해지므로, 일정한 범위(0~1 등)로 맞추는 스케일링 과정이 필수적이다.
⚠️ 모순 및 업데이트 (RL Update)
- 무조건적인 데이터 삭제는 '중요한 예외 상황(Edge case)' 정보까지 날려버릴 수 있다. 특히 사고 예방이 중요한 보안이나 자율주행 분야에서는 이상 데이터를 버리기보다, 그것이 왜 발생했는지 분석하는 프로세스가 병행되어야 한다.
🔗 지식 연결 (Graph)
- Related: Information Theory , Reliability_Safety_First
- Foundation: Computational Thinking