bluemsi/2nd

Files

T

bluemsi 2afcd3b2a6 [P-Reinforce] Substantial content added to DQN/Dijkstra/Differentiable/Dense (Batch 05)

2026-04-20 17:05:12 +09:00

1.6 KiB

Raw Blame History

id, category, confidence_score, tags, last_reinforced

id

category

confidence_score

tags

last_reinforced

P-REINFORCE-AI-DATA-CLEAN

10_Wiki/💡 Topics/AI

0.97

Data Cleaning

Machine Learning

Data Quality

Preprocessing

2026-04-20

Data-Cleaning-Algorithms (데이터 정제 알고리즘)

📌 한 줄 통찰 (The Karpathy Summary)

"품질이 성능을 이긴다." 모델의 구조를 바꾸는 것보다 데이터 속의 노이즈와 중복을 제거하는 것이 AI 성능 향상에 훨씬 더 드라마틱한 결과(Data-centric AI)를 준다.

📖 구조화된 지식 (Synthesized Content)

Outlier Detection:
- 통계적 기법(Z-score, IQR) 또는 머신러닝(Isolation Forest)을 통해 정상 범위를 벗어난 이상치를 탐지하고 처리한다.
Handling Missing Values:
- 비어있는 값을 평균값으로 채울지, 아니면 예측 모델을 통해 추론해서 채울지(Imputation) 전략을 수립한다.
Normalization & Scaling:
- 데이터의 수치가 너무 제각각이면 학습이 불안정해지므로, 일정한 범위(0~1 등)로 맞추는 스케일링 과정이 필수적이다.

⚠️ 모순 및 업데이트 (RL Update)

무조건적인 데이터 삭제는 '중요한 예외 상황(Edge case)' 정보까지 날려버릴 수 있다. 특히 사고 예방이 중요한 보안이나 자율주행 분야에서는 이상 데이터를 버리기보다, 그것이 왜 발생했는지 분석하는 프로세스가 병행되어야 한다.

🔗 지식 연결 (Graph)

Related: Information Theory , Reliability_Safety_First
Foundation: Computational Thinking