--- id: FEAT-ENG-001 category: Unified confidence_score: 1.0 tags: [ai, machine-learning, feature-engineering, data-pre[[Processing|Processing]], ml-[[Mastery|Mastery]]] last_reinforced: 2026-04-26 --- # Feature Engineering (피처 엔지니어링) ## 📌 한 줄 통찰 (The Karpathy Summary) > "데이터를 모델이 가장 이해하기 쉬운 언어로 번역하고, 숨겨진 통찰을 숫자로 구체화하라" — 도메인 지식을 활용하여 원시 데이터로부터 모델의 예측 성능을 극대화할 수 있는 새로운 특징(Feature)을 생성하거나 기존 특징을 변환하는 과정. ## 📖 구조화된 지식 (Synthesized Content) - **추출된 패턴:** 복잡한 현실 세계의 원시 데이터 속에 숨겨진 인과관계나 상관관계를 수학적 연산이나 논리적 가공을 통해 모델이 즉각 인지할 수 있는 신호(Signal)로 증폭시키는 증폭 패턴. - **주요 기법:** - **Scaling & [[Normalization|Normalization]]:** 변수들의 단위를 통일하여 특정 변수의 왜곡 방지 (Min-Max, Standard Scaling). - **Encoding:** 범주형 데이터를 수치로 변환 (One-hot encoding, Target encoding). - **Binning:** 연속형 데이터를 범주로 나누어 노이즈 감소. - **Interaction Features:** 두 개 이상의 변수를 조합(곱셈, 나눗셈 등)하여 새로운 의미 생성. - **Imputation:** 결측치를 도메인 논리에 맞게 채움. - **의의:** 딥러닝이 특징 추출을 자동화하고 있지만, 여전히 정형 데이터나 특정 도메인에서는 인간의 직관이 담긴 피처 엔지니어링이 모델의 한계를 돌파하는 핵심 열쇠임. ## ⚠️ 모순 및 업데이트 (Contradictions & RL Update) - **과거 데이터와의 충돌:** 복잡한 알고리즘을 찾는 데 시간을 쏟던 관행에서, 데이터의 질과 표현 방식을 개선하는 것이 훨씬 효율적이라는 데이터 중심 AI(Data-centric AI) 관점으로 전환. - **정책 변화:** Antigravity 프로젝트는 문서 간의 관련성을 산출할 때, 단순 임베딩 거리에 '문서 구조적 유사도(헤더 개수, 링크 밀도 등)'를 피처로 추가하여 검색 정밀도를 높임. ## 🔗 지식 연결 (Graph) - [[Exploratory-Data-Analysis|Exploratory-Data-Analysis]], [[Dimensionality-Reduction|Dimensionality-Reduction]], [[Deep-Learning|Deep-Learning]]-Foundations, Data-Augmentation-Strategies - **Raw Source:** 10_Wiki/Topics/AI/Feature-Engineering.md