2.1 KiB
2.1 KiB
id, category, confidence_score, tags, last_reinforced
| id | category | confidence_score | tags | last_reinforced | ||||||
|---|---|---|---|---|---|---|---|---|---|---|
| P-REINFORCE-AUTO-FEEN-001 | 10_Wiki/💡 Topics/AI | 0.94 |
|
2026-04-20 |
Feature-Engineering
📌 한 줄 통찰 (The Karpathy Summary)
"데이터에 마법 입히기: 원본 데이터에서 AI가 패턴을 더 잘 읽어낼 수 있도록 도메인 지식을 활용하여 새로운 특징(Feature)을 만들거나 변환하는 과정으로, 모델의 성능 하한선을 결정짓는 연금술적 가공 공정."
📖 구조화된 지식 (Synthesized Content)
특징 공학(Feature-Engineering)은 로우(raw) 데이터에서 유의미한 변수를 추출하여 예측 알고리즘의 성능을 높이는 과정입니다.
- 주요 기법:
- Embedding: 텍스트나 비정형 데이터를 고차원 벡터로 변환.
- Scaling: 데이터의 범위를 일정한 구간(0~1)으로 통일.
- Feature Interaction: 두 변수를 결합하여 새로운 인사이트 생성 (예: 키와 몸무게로 BMI 만들기).
- Dimensionality Reduction: 중요하지 않은 특징을 제거하여 Efficiency 향상. (PCA 등)
- 왜 중요한가?:
- "알고리즘보다 데이터가 중요하다"는 격언의 핵심 실천형이며, 도메인 전문가의 통찰이 수식으로 변환되는 지점임.
⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- 과거 데이터와의 충돌: 과거에는 사람이 수동으로 특징을 고르는 'Hand-crafted 정책'이 필수였으나, 현대 정책은 딥러닝이 스스로 특징을 찾아내는 'Feature Learning 정책'으로 비중이 옮겨감(RL Update). (Deep Learning의 정수)
- 정책 변화(RL Update): 자동 특징 생성 정책(AutoML)을 통해 인간의 편향을 배제하고 기계가 스스로 최적의 특징 조합 정책을 찾는 기법이 고도화 중임.
🔗 지식 연결 (Graph)
- Data Cleaning Algorithms, Optimization, Efficiency, Deep Learning (DL), Analysis
- Modern Tech/Tools: Scikit-Learn, Featuretools, Pandas, PCA, Auto-encoders.