33 lines
2.1 KiB
Markdown
33 lines
2.1 KiB
Markdown
---
|
|
id: P-REINFORCE-AUTO-FEEN-001
|
|
category: "[[10_Wiki/💡 Topics/AI]]"
|
|
confidence_score: 0.94
|
|
tags: [auto-reinforced, feature-engineering, data-science, machine-learning, extraction, preprocessing]
|
|
last_reinforced: 2026-04-20
|
|
---
|
|
|
|
# [[Feature-Engineering]]
|
|
|
|
## 📌 한 줄 통찰 (The Karpathy Summary)
|
|
> "데이터에 마법 입히기: 원본 데이터에서 AI가 패턴을 더 잘 읽어낼 수 있도록 도메인 지식을 활용하여 새로운 특징(Feature)을 만들거나 변환하는 과정으로, 모델의 성능 하한선을 결정짓는 연금술적 가공 공정."
|
|
|
|
## 📖 구조화된 지식 (Synthesized Content)
|
|
특징 공학(Feature-Engineering)은 로우(raw) 데이터에서 유의미한 변수를 추출하여 예측 알고리즘의 성능을 높이는 과정입니다.
|
|
|
|
1. **주요 기법**:
|
|
* **Embedding**: 텍스트나 비정형 데이터를 고차원 벡터로 변환.
|
|
* **Scaling**: 데이터의 범위를 일정한 구간(0~1)으로 통일.
|
|
* **Feature Interaction**: 두 변수를 결합하여 새로운 인사이트 생성 (예: 키와 몸무게로 BMI 만들기).
|
|
* **Dimensionality Reduction**: 중요하지 않은 특징을 제거하여 Efficiency 향상. (PCA 등)
|
|
2. **왜 중요한가?**:
|
|
* "알고리즘보다 데이터가 중요하다"는 격언의 핵심 실천형이며, 도메인 전문가의 통찰이 수식으로 변환되는 지점임.
|
|
|
|
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
|
|
- **과거 데이터와의 충돌**: 과거에는 사람이 수동으로 특징을 고르는 'Hand-crafted 정책'이 필수였으나, 현대 정책은 딥러닝이 스스로 특징을 찾아내는 'Feature Learning 정책'으로 비중이 옮겨감(RL Update). (Deep Learning의 정수)
|
|
- **정책 변화(RL Update)**: 자동 특징 생성 정책(AutoML)을 통해 인간의 편향을 배제하고 기계가 스스로 최적의 특징 조합 정책을 찾는 기법이 고도화 중임.
|
|
|
|
## 🔗 지식 연결 (Graph)
|
|
- [[Data Cleaning Algorithms]], [[Optimization]], [[Efficiency]], [[Deep Learning (DL)]], [[Analysis]]
|
|
- **Modern Tech/Tools**: Scikit-Learn, Featuretools, Pandas, PCA, Auto-encoders.
|
|
---
|