chore(wiki): reinforce knowledge batch #6-#10 (200 docs milestone)

This commit is contained in:
Antigravity Agent
2026-04-26 15:07:47 +09:00
parent f541717fe1
commit c612160a13
265 changed files with 8026 additions and 1113 deletions
+18 -20
View File
@@ -1,32 +1,30 @@
---
id: P-REINFORCE-AUTO-FEEN-001
id: FEAT-ENG-001
category: "[[10_Wiki/💡 Topics/AI]]"
confidence_score: 0.94
tags: [auto-reinforced, feature-engineering, data-science, machine-learning, extraction, preprocessing]
last_reinforced: 2026-04-20
confidence_score: 1.0
tags: [ai, machine-learning, feature-engineering, data-preprocessing, ml-mastery]
last_reinforced: 2026-04-26
---
# [[Feature-Engineering]]
# [[Feature Engineering (피처 엔지니어링)]]
## 📌 한 줄 통찰 (The Karpathy Summary)
> "데이터에 마법 입히기: 원본 데이터에서 AI가 패턴을 더 잘 읽어낼 수 있도록 도메인 지식을 활용하여 새로운 특징(Feature)을 만들거나 변환하는 과정으로, 모델의 성능 하한선을 결정짓는 연금술적 가공 공정."
> "데이터를 모델이 가장 이해하기 쉬운 언어로 번역하고, 숨겨진 통찰을 숫자로 구체화하라" — 도메인 지식을 활용하여 원시 데이터로부터 모델의 예측 성능을 극대화할 수 있는 새로운 특징(Feature)을 생성하거나 기존 특징을 변환하는 과정.
## 📖 구조화된 지식 (Synthesized Content)
특징 공학(Feature-Engineering)은 로우(raw) 데이터에서 유의미한 변수를 추출하여 예측 알고리즘의 성능을 높이는 과정입니다.
1. **주요 기법**:
* **Embedding**: 텍스트나 비정형 데이터를 고차원 벡터로 변환.
* **Scaling**: 데이터위를 일정한 구간(0~1)으로 통일.
* **Feature Interaction**: 두 변수를 결합하여 새로운 인사이트 생성 (예: 키와 몸무게로 BMI 만들기).
* **Dimensionality Reduction**: 중요하지 않은 특징을 제거하여 Efficiency 향상. (PCA 등)
2. **왜 중요한가?**:
* "알고리즘보다 데이터가 중요하다"는 격언의 핵심 실천형이며, 도메인 전문가의 통찰이 수식으로 변환되는 지점임.
- **추출된 패턴:** 복잡한 현실 세계의 원시 데이터 속에 숨겨진 인과관계나 상관관계를 수학적 연산이나 논리적 가공을 통해 모델이 즉각 인지할 수 있는 신호(Signal)로 증폭시키는 증폭 패턴.
- **주요 기법:**
- **Scaling & Normalization:** 변수들의 단위를 통일하여 특정 변수의 왜곡 방지 (Min-Max, Standard Scaling).
- **Encoding:** 범주형 데이터를 수치로 변환 (One-hot encoding, Target encoding).
- **Binning:** 연속형 데이터주로 나누어 노이즈 감소.
- **Interaction Features:** 두 개 이상의 변수를 조합(곱셈, 나눗셈 등)하여 새로운 의미 생성.
- **Imputation:** 결측치를 도메인 논리에 맞게 채움.
- **의의:** 딥러닝이 특징 추출을 자동화하고 있지만, 여전히 정형 데이터나 특정 도메인에서는 인간의 직관이 담긴 피처 엔지니어링이 모델의 한계를 돌파하는 핵심 열쇠임.
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌**: 과거에는 사람이 수동으로 특징을 고르는 'Hand-crafted 정책'이 필수였으나, 현대 정책은 딥러닝이 스스로 특징을 찾아내는 'Feature Learning 정책'으로 비중이 옮겨감(RL Update). (Deep Learning의 정수)
- **정책 변화(RL Update)**: 자동 특징 생성 정책(AutoML)을 통해 인간의 편향을 배제하고 기계가 스스로 최적의 특징 조합 정책을 찾는 기법이 고도화 중임.
- **과거 데이터와의 충돌:** 복잡한 알고리즘을 찾는 데 시간을 쏟던 관행에서, 데이터의 질과 표현 방식을 개선하는 것이 훨씬 효율적이라는 데이터 중심 AI(Data-centric AI) 관점으로 전환.
- **정책 변화:** Antigravity 프로젝트는 문서 간의 관련성을 산출할 때, 단순 임베딩 거리에 '문서 구조적 유사도(헤더 개수, 링크 밀도 등)'를 피처로 추가하여 검색 정밀도를 높임.
## 🔗 지식 연결 (Graph)
- [[Data Cleaning Algorithms]], [[Optimization]], [[Efficiency]], [[Deep Learning (DL)]], [[Analysis]]
- **Modern Tech/Tools**: Scikit-Learn, Featuretools, Pandas, PCA, Auto-encoders.
---
- [[Exploratory-Data-Analysis]], [[Dimensionality-Reduction]], [[Deep-Learning-Foundations]], [[Data-Augmentation-Strategies]]
- **Raw Source:** [[10_Wiki/Topics/AI/Feature-Engineering.md]]