--- id: P-REINFORCE-AI-DATA-CLEAN category: "[[10_Wiki/πŸ’‘ Topics/AI]]" confidence_score: 0.97 tags: [Data Cleaning, Machine Learning, Data Quality, Preprocessing] last_reinforced: 2026-04-20 --- # [[Data-Cleaning-Algorithms]] (데이터 μ •μ œ μ•Œκ³ λ¦¬μ¦˜) ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "ν’ˆμ§ˆμ΄ μ„±λŠ₯을 이긴닀." λͺ¨λΈμ˜ ꡬ쑰λ₯Ό λ°”κΎΈλŠ” 것보닀 데이터 μ†μ˜ λ…Έμ΄μ¦ˆμ™€ 쀑볡을 μ œκ±°ν•˜λŠ” 것이 AI μ„±λŠ₯ ν–₯상에 훨씬 더 λ“œλΌλ§ˆν‹±ν•œ κ²°κ³Ό(Data-centric AI)λ₯Ό μ€€λ‹€. ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) - **Outlier Detection**: - 톡계적 기법(Z-score, IQR) λ˜λŠ” λ¨Έμ‹ λŸ¬λ‹(Isolation Forest)을 톡해 정상 λ²”μœ„λ₯Ό λ²—μ–΄λ‚œ μ΄μƒμΉ˜λ₯Ό νƒμ§€ν•˜κ³  μ²˜λ¦¬ν•œλ‹€. - **Handling Missing Values**: - λΉ„μ–΄μžˆλŠ” 값을 ν‰κ· κ°’μœΌλ‘œ μ±„μšΈμ§€, μ•„λ‹ˆλ©΄ 예츑 λͺ¨λΈμ„ 톡해 μΆ”λ‘ ν•΄μ„œ μ±„μšΈμ§€(Imputation) μ „λž΅μ„ μˆ˜λ¦½ν•œλ‹€. - **Normalization & Scaling**: - λ°μ΄ν„°μ˜ μˆ˜μΉ˜κ°€ λ„ˆλ¬΄ 제각각이면 ν•™μŠ΅μ΄ λΆˆμ•ˆμ •ν•΄μ§€λ―€λ‘œ, μΌμ •ν•œ λ²”μœ„(0~1 λ“±)둜 λ§žμΆ”λŠ” μŠ€μΌ€μΌλ§ 과정이 ν•„μˆ˜μ μ΄λ‹€. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (RL Update) - 무쑰건적인 데이터 μ‚­μ œλŠ” 'μ€‘μš”ν•œ μ˜ˆμ™Έ 상황(Edge case)' μ •λ³΄κΉŒμ§€ 날렀버릴 수 μžˆλ‹€. 특히 사고 예방이 μ€‘μš”ν•œ λ³΄μ•ˆμ΄λ‚˜ μžμœ¨μ£Όν–‰ λΆ„μ•Όμ—μ„œλŠ” 이상 데이터λ₯Ό 버리기보닀, 그것이 μ™œ λ°œμƒν–ˆλŠ”μ§€ λΆ„μ„ν•˜λŠ” ν”„λ‘œμ„ΈμŠ€κ°€ λ³‘ν–‰λ˜μ–΄μ•Ό ν•œλ‹€. ## πŸ”— 지식 μ—°κ²° (Graph) - Related: [[Information Theory]] , [[Reliability_Safety_First]] - Foundation: [[Computational Thinking]]