--- id: wiki-2026-0508-pre-processing-data-for-ai title: Pre processing Data for AI category: 10_Wiki/Topics status: needs_review canonical_id: self aliases: [DATA-PRE-001] duplicate_of: none source_trust_level: A confidence_score: 1.0 tags: [data-science, ai, machine-learning, preProcessing, data-cleaning, Feature-Engineering, Normalization] raw_sources: [] last_reinforced: 2026-04-26 github_commit: pending inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08) --- # Pre-processing Data for AI (AI를 위한 데이터 전처리) ## 📌 한 줄 통찰 (The Karpathy Summary) > "데이터의 날것 그대로를 신뢰하지 말고, 지능이 소화하기 가장 편안한 형태로 정제하고 규격화하여 모델의 잠재력을 해방하라" — 분석이나 학습에 적합하지 않은 원시 데이터를 데이터 품질을 높이고 학습 효율을 최적화하기 위해 가공하는 모든 인공지능 워크플로우의 최우선 과정. ## 📖 구조화된 지식 (Synthesized Content) - **추출된 패턴:** "Data Cleansing and Structural [[Alignment|Alignment]]" — 불완전한 기록(Missing value)을 메우고, 극단적인 값(Outlier)을 처리하며, 서로 다른 단위의 숫자들을 동일한 범위로 맞추어(Scaling) 모델이 특정 변수에만 휘둘리지 않게 만드는 패턴. - **주요 작업 단계:** - **Cleaning:** 오타 수정, 결측치 처리(Imputation), 중복 데이터 제거. - **Transformation:** 정규화(Normalization), 표준화(Standardization), 로그 변환. - **Reduction:** 차원 축소(PCA), 특징 선택(Feature Selection). - **Discretization:** 연속형 변수를 범주형으로 변환. - **의의:** 전체 데이터 사이언스 업무의 80% 이상을 차지하는 핵심 노동이자, 모델의 성능 하한선을 결정짓는 가장 실질적인 품질 관리 과정. ## ⚠️ 모순 및 업데이트 (Contradictions & Updates) - **과거 데이터와의 충돌:** 사람이 일일이 규칙을 만들어 전처리하던 방식에서, 이제는 전처리 과정 자체를 학습하여 최적화하는 Auto-Preprocessing 기술과 데이터 유효성을 자동으로 검사하는 Data Observability 도구들이 필수적으로 도입되고 있음. - **정책 변화:** Antigravity 프로젝트는 외부 원시 위키 데이터를 시스템으로 가져올 때, 텍스트 내의 불필요한 마크업이나 특수 기호를 제거하고 Karpathy 스타일로 재구성하기 위한 전용 NLP 전처리 엔진을 가동함. ## 🔗 지식 연결 (Graph) - [[Normalization-Strategies|Normalization-Strategies]], [[Outlier-Detection-Techniques|Outlier-Detection-Techniques]], [[One-Hot-Encoding|One-Hot-Encoding]], [[Exploratory-Data-Analysis|Exploratory-Data-Analysis]] - **Raw Source:** 10_Wiki/Topics/AI/Pre-processing-Data-for-AI.md ## 🤖 LLM 활용 힌트 (How to Use This Knowledge) **언제 이 지식을 쓰는가:** - *(TODO)* **언제 쓰면 안 되는가:** - *(TODO)* ## 🧪 검증 상태 (Validation) - **정보 상태:** needs_review - **출처 신뢰도:** A - **검토 이유:** *(P-Reinforce Phase 1 자동 정규화. 본문 검증 필요.)* ## 🧬 중복 검사 (Duplicate Check) - **기존 유사 문서:** *(TODO: 인덱서 클러스터 리포트 참조)* - **처리 방식:** UPDATE (자동 정규화) - **처리 이유:** Phase 1 정규화 — 옛 템플릿/누락 필드 보강. ## 🕓 변경 이력 (Changelog) | 날짜 | 변경 내용 | 처리 방식 | 신뢰도 | |------|-----------|-----------|--------| | 2026-05-08 | P-Reinforce Phase 1 정규화 (frontmatter + 헤더 표준화) | UPDATE | A |