Files
2nd/10_Wiki/Topics/데이터_사이언스_및_ML_엔지니어링.md
T
koriweb d8a80f6272 chore(wiki): dangling 링크 canonical 정규화 (768파일/1200건)
이름만 다른(표기 변형) [[위키링크]]를 대상 문서의 canonical 제목으로 치환해
끊겼던 1,200개 링크를 연결. 제목/파일명 정규화 일치만 적용하고 별칭 매칭은
과병합 위험으로 제외(애매성 가드). 원본은 _link_reconcile_backup/ 에 백업.
도구: Datacollect/scripts/link_reconcile_apply.mjs

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-08 12:24:15 +09:00

7.7 KiB

id, title, category, status, canonical_id, aliases, duplicate_of, source_trust_level, confidence_score, tags, raw_sources, last_reinforced, github_commit, tech_stack
id title category status canonical_id aliases duplicate_of source_trust_level confidence_score tags raw_sources last_reinforced github_commit tech_stack
wiki-2026-0507-029 데이터 사이언스 및 ML 엔지니어링 10_Wiki/Topics verified self
wiki-2026-0507-029
Machine Learning
Deep Learning
ML
Python
Data Science
Generative AI
Neural Networks
VAE
LSTM
DQN
Bayesian Inference
MDP
Swarm Intelligence
NLP
Computer Vision
CNN
Reinforcement Learning
기계 학습
데이터 사이언스
강화 학습
none B 1.0
AI
Machine Learning
Deep Learning
Data Science
Generative AI
MLOps
NeuralNetworks
ProbabilisticModels
ComputerVision
RL
직접 입력
AI/VAE.md
AI/LSTM.md
AI/DQN.md
AI/Bayesian.md
AI/MDP.md
CNN.md
Neural_Networks_and_Deep_Learning_Foundations.md
Reinforcement_Learning_Fundamentals.md
Reinforcement_Learning_and_Decision_Making.md
Theoretical_Foundations.md
Computer_Vision.md
2026-05-08 pending
language framework
unspecified unspecified

데이터_사이언스_및_ML_엔지니어링

📌 한 줄 통찰 (The Karpathy Summary)

"데이터로부터 가치를 추출하고 지능을 모델링하는 공학." 단순한 예측을 넘어, 대규모 데이터를 학습하여 새로운 콘텐츠를 생성하고(Generative AI), 복잡한 문제를 인공신경망으로 해결하는 현대 AI 기술의 근간.


📖 구조화된 지식 (Synthesized Content)

추출된 패턴:

데이터 전처리(Cleaning)에서 시작하여 모델 학습(Training)과 최적화(Optimization)를 거쳐, 실제 서비스에 배포하고 모니터링하는 전 과정(MLOps)을 하나의 유기적인 파이프라인으로 구축하는 것이 핵심이다.

세부 내용:

  • 머신러닝 및 딥러닝 기초:
    • 3대 학습 패러다임: 지도 학습, 비지도 학습, 강화 학습.
  • 인공신경망 아키텍처 (Neural Architectures):
    • CNN (Convolutional Neural Networks): 이미지 데이터의 공간적 구조를 보존하며 특징을 추출하는 표준 아키텍처. 풀링(Pooling), 필터(Filter), 스트라이드(Stride) 등을 통해 고수준 시각적 패턴 학습.
    • LSTM (Long Short-Term Memory): 시계열 데이터의 장기 의존성 문제를 해결하는 순환 신경망(RNN) 변형. 게이트 메커니즘(Forget, Input, Output)으로 정보의 흐름 제어.
    • VAE (Variational Autoencoder): 데이터의 잠재 공간(Latent Space)을 학습하여 새로운 데이터를 생성하는 확률론적 생성 모델.
    • Transformer: 셀프 어텐션(Self-Attention) 메커니즘을 통해 병렬 연산과 전역 문맥 파악이 가능한 현대 NLP의 표준.
  • 강화 학습 및 의사 결정 (RL & Decision Making):
    • 보상 기반 학습: 환경과의 상호작용을 통해 누적 보상을 최대화하는 정책(Policy) 학습.
    • DQN (Deep Q-Network): Q-Learning에 딥러닝을 결합하여 고차원 상태 공간에서 최적 정책 학습. 경험 재생(Experience Replay)과 타겟 네트워크 사용.
    • MDP (Markov Decision Process): 불확실성 하에서의 순차적 의사 결정을 정형화한 수학적 프레임워크.
    • Swarm Intelligence: 개별 개체들의 단순한 규칙 상호작용을 통해 복잡한 문제를 해결하는 집단 지성 알고리즘.
  • 확률 및 정보 이론:
    • Bayesian Inference: 새로운 증거가 나타날 때마다 가설의 확률을 갱신하는 통계적 추론 방식.
    • Information Theory: 데이터의 압축, 전송 및 엔트로피(Entropy)를 다루는 통신과 학습의 기초 이론.
  • 도메인별 AI 응용:
    • Computer Vision: 이미지 및 비디오 데이터의 특징 추출(CNN), 객체 탐지(YOLO, Faster R-CNN), 분할 및 생성.
    • NLP (Natural Language Processing): 언어의 구문 분석, 감성 분석, 기계 번역 및 텍스트 생성.
  • 데이터 엔지니어링 및 사이언스:
    • EDA (Exploratory Data Analysis): 데이터의 특성과 패턴을 시각화 및 통계적으로 파악.
    • 데이터 정제: 결측치, 이상치 처리 및 피처 엔지니어링을 통한 모델 성능 극대화.
  • MLOps 및 실전 배포:
    • 실험 관리: MLflow 등을 활용한 하이퍼파라미터 및 모델 버전 관리.
    • 서빙 아키텍처: 모델을 API 형태로 배포하고 데이터 드리프트를 실시간 모니터링.

🤖 LLM 활용 힌트 (How to Use This Knowledge)

언제 이 지식을 쓰는가:

  • 데이터 기반의 예측 모델이나 추천 시스템을 기획하고 개발할 때.
  • Stable Diffusion, DALL-E 등 생성형 AI 모델의 작동 원리를 이해하고 커스텀 학습(LoRA 등)을 수행할 때.
  • 파이썬 기반의 데이터 분석 파이프라인을 구축하거나 성능 튜닝이 필요할 때.

언제 이 지식을 쓰면 안 되는가:

  • 단순한 규칙 기반 알고리즘으로 충분히 해결 가능한 문제.

이 지식을 적용할 때의 권장 절차:

  1. 문제 정의: 비즈니스 목표를 데이터 사이언스 문제(분류, 회귀 등)로 치환.
  2. 데이터 확보 및 분석: 원천 데이터를 수집하고 EDA를 통해 데이터의 질 파악.
  3. 모델링: 데이터 크기와 복잡도에 따라 적절한 알고리즘(트리 기반 vs 신경망) 선택.
  4. 평가 및 최적화: 정밀도(Precision), 재현율(Recall) 등 지표를 기반으로 모델 튜닝.
  5. 배포 및 관리: MLOps 프로세스에 따라 모델을 배포하고 지속적으로 성능 관리.

주의사항 또는 알려진 한계:

  • 데이터 의존성: 모델의 성능은 학습 데이터의 양과 질에 절대적으로 의존함 (GIGO).
  • 모델 붕괴 (Model Collapse): AI가 생성한 합성 데이터를 다시 학습에 활용할 경우, 시간이 지남에 따라 모델의 정확성과 신뢰성이 저하되는 현상 주의.
  • 해석 가능성: 복잡한 딥러닝 모델은 결과 도출 근거를 설명하기 어려울 수 있으므로 XAI 기법 병행 권장.

🧪 검증 상태 (Validation)

  • 정보 상태: verified
  • 출처 신뢰도: B
  • 검토 이유: 해당 없음

🧬 중복 검사 (Duplicate Check)


⚠️ 모순 및 업데이트 (Contradictions & Updates)

  • 과거 데이터와의 충돌: 없음
  • 정책 변화: 단순한 분석 도구 활용에서 '데이터 중심(Data-centric)의 파이프라인 자동화' 및 '생성형 AI의 실전적 응용'으로 초점 이동.

🔗 지식 연결 (Graph)


🕓 변경 이력 (Changelog)

날짜 변경 내용 처리 방식 신뢰도
2026-05-07 150개 이상의 AI/ML/데이터 사이언스 관련 중복 문서를 통합 및 v3.0 규격 적용 MERGE B

💻 코드 패턴 (Code Patterns)

패턴 1: (TODO: 이 프로젝트 컨벤션 반영한 구조 스켈레톤)

# TODO

🤔 의사결정 기준 (Decision Criteria)

선택 A를 써야 할 때:

  • (TODO)

선택 B를 써야 할 때:

  • (TODO)

기본값:

(TODO)

안티패턴 (Anti-Patterns)

  • [안티패턴]: (TODO: 무엇을 하면 안 되는가 + 이유 + 대신 무엇을)