bluemsi/2nd

Files

T

bluemsi ae1627c35b feat: achieve 600 files milestone in AI knowledge base

2026-04-20 19:23:51 +09:00

2.1 KiB

Raw Blame History

id, category, confidence_score, tags, last_reinforced

id

category

confidence_score

tags

last_reinforced

P-REINFORCE-AUTO-FEEN-001

10_Wiki/💡 Topics/AI

0.94

auto-reinforced

feature-engineering

data-science

machine-learning

extraction

preprocessing

2026-04-20

Feature-Engineering

📌 한 줄 통찰 (The Karpathy Summary)

"데이터에 마법 입히기: 원본 데이터에서 AI가 패턴을 더 잘 읽어낼 수 있도록 도메인 지식을 활용하여 새로운 특징(Feature)을 만들거나 변환하는 과정으로, 모델의 성능 하한선을 결정짓는 연금술적 가공 공정."

📖 구조화된 지식 (Synthesized Content)

특징 공학(Feature-Engineering)은 로우(raw) 데이터에서 유의미한 변수를 추출하여 예측 알고리즘의 성능을 높이는 과정입니다.

주요 기법:
- Embedding: 텍스트나 비정형 데이터를 고차원 벡터로 변환.
- Scaling: 데이터의 범위를 일정한 구간(0~1)으로 통일.
- Feature Interaction: 두 변수를 결합하여 새로운 인사이트 생성 (예: 키와 몸무게로 BMI 만들기).
- Dimensionality Reduction: 중요하지 않은 특징을 제거하여 Efficiency 향상. (PCA 등)
왜 중요한가?:
- "알고리즘보다 데이터가 중요하다"는 격언의 핵심 실천형이며, 도메인 전문가의 통찰이 수식으로 변환되는 지점임.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

과거 데이터와의 충돌: 과거에는 사람이 수동으로 특징을 고르는 'Hand-crafted 정책'이 필수였으나, 현대 정책은 딥러닝이 스스로 특징을 찾아내는 'Feature Learning 정책'으로 비중이 옮겨감(RL Update). (Deep Learning의 정수)
정책 변화(RL Update): 자동 특징 생성 정책(AutoML)을 통해 인간의 편향을 배제하고 기계가 스스로 최적의 특징 조합 정책을 찾는 기법이 고도화 중임.

🔗 지식 연결 (Graph)

Data Cleaning Algorithms, Optimization, Efficiency, Deep Learning (DL), Analysis
Modern Tech/Tools: Scikit-Learn, Featuretools, Pandas, PCA, Auto-encoders.