Files
2nd/10_Wiki/Topics/AI/Feature-Engineering.md
T

2.4 KiB

id, category, confidence_score, tags, last_reinforced
id category confidence_score tags last_reinforced
FEAT-ENG-001 10_Wiki/💡 Topics/AI 1.0
ai
machine-learning
feature-engineering
data-preprocessing
ml-mastery
2026-04-26

Feature Engineering (피처 엔지니어링)

📌 한 줄 통찰 (The Karpathy Summary)

"데이터를 모델이 가장 이해하기 쉬운 언어로 번역하고, 숨겨진 통찰을 숫자로 구체화하라" — 도메인 지식을 활용하여 원시 데이터로부터 모델의 예측 성능을 극대화할 수 있는 새로운 특징(Feature)을 생성하거나 기존 특징을 변환하는 과정.

📖 구조화된 지식 (Synthesized Content)

  • 추출된 패턴: 복잡한 현실 세계의 원시 데이터 속에 숨겨진 인과관계나 상관관계를 수학적 연산이나 논리적 가공을 통해 모델이 즉각 인지할 수 있는 신호(Signal)로 증폭시키는 증폭 패턴.
  • 주요 기법:
    • Scaling & Normalization: 변수들의 단위를 통일하여 특정 변수의 왜곡 방지 (Min-Max, Standard Scaling).
    • Encoding: 범주형 데이터를 수치로 변환 (One-hot encoding, Target encoding).
    • Binning: 연속형 데이터를 범주로 나누어 노이즈 감소.
    • Interaction Features: 두 개 이상의 변수를 조합(곱셈, 나눗셈 등)하여 새로운 의미 생성.
    • Imputation: 결측치를 도메인 논리에 맞게 채움.
  • 의의: 딥러닝이 특징 추출을 자동화하고 있지만, 여전히 정형 데이터나 특정 도메인에서는 인간의 직관이 담긴 피처 엔지니어링이 모델의 한계를 돌파하는 핵심 열쇠임.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

  • 과거 데이터와의 충돌: 복잡한 알고리즘을 찾는 데 시간을 쏟던 관행에서, 데이터의 질과 표현 방식을 개선하는 것이 훨씬 효율적이라는 데이터 중심 AI(Data-centric AI) 관점으로 전환.
  • 정책 변화: Antigravity 프로젝트는 문서 간의 관련성을 산출할 때, 단순 임베딩 거리에 '문서 구조적 유사도(헤더 개수, 링크 밀도 등)'를 피처로 추가하여 검색 정밀도를 높임.

🔗 지식 연결 (Graph)