Files

T

koriweb d8a80f6272 chore(wiki): dangling 링크 canonical 정규화 (768파일/1200건)

이름만 다른(표기 변형) [[위키링크]]를 대상 문서의 canonical 제목으로 치환해
끊겼던 1,200개 링크를 연결. 제목/파일명 정규화 일치만 적용하고 별칭 매칭은
과병합 위험으로 제외(애매성 가드). 원본은 _link_reconcile_backup/ 에 백업.
도구: Datacollect/scripts/link_reconcile_apply.mjs

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>

2026-06-08 12:24:15 +09:00

7.7 KiB

Raw Blame History

id, title, category, status, canonical_id, aliases, duplicate_of, source_trust_level, confidence_score, tags, raw_sources, last_reinforced, github_commit, tech_stack

title

데이터_사이언스_및_ML_엔지니어링

📌 한 줄 통찰 (The Karpathy Summary)

"데이터로부터 가치를 추출하고 지능을 모델링하는 공학." 단순한 예측을 넘어, 대규모 데이터를 학습하여 새로운 콘텐츠를 생성하고(Generative AI), 복잡한 문제를 인공신경망으로 해결하는 현대 AI 기술의 근간.

📖 구조화된 지식 (Synthesized Content)

추출된 패턴:

데이터 전처리(Cleaning)에서 시작하여 모델 학습(Training)과 최적화(Optimization)를 거쳐, 실제 서비스에 배포하고 모니터링하는 전 과정(MLOps)을 하나의 유기적인 파이프라인으로 구축하는 것이 핵심이다.

세부 내용:

머신러닝 및 딥러닝 기초:
- 3대 학습 패러다임: 지도 학습, 비지도 학습, 강화 학습.
인공신경망 아키텍처 (Neural Architectures):
- CNN (Convolutional Neural Networks): 이미지 데이터의 공간적 구조를 보존하며 특징을 추출하는 표준 아키텍처. 풀링(Pooling), 필터(Filter), 스트라이드(Stride) 등을 통해 고수준 시각적 패턴 학습.
- LSTM (Long Short-Term Memory): 시계열 데이터의 장기 의존성 문제를 해결하는 순환 신경망(RNN) 변형. 게이트 메커니즘(Forget, Input, Output)으로 정보의 흐름 제어.
- VAE (Variational Autoencoder): 데이터의 잠재 공간(Latent Space)을 학습하여 새로운 데이터를 생성하는 확률론적 생성 모델.
- Transformer: 셀프 어텐션(Self-Attention) 메커니즘을 통해 병렬 연산과 전역 문맥 파악이 가능한 현대 NLP의 표준.
강화 학습 및 의사 결정 (RL & Decision Making):
- 보상 기반 학습: 환경과의 상호작용을 통해 누적 보상을 최대화하는 정책(Policy) 학습.
- DQN (Deep Q-Network): Q-Learning에 딥러닝을 결합하여 고차원 상태 공간에서 최적 정책 학습. 경험 재생(Experience Replay)과 타겟 네트워크 사용.
- MDP (Markov Decision Process): 불확실성 하에서의 순차적 의사 결정을 정형화한 수학적 프레임워크.
- Swarm Intelligence: 개별 개체들의 단순한 규칙 상호작용을 통해 복잡한 문제를 해결하는 집단 지성 알고리즘.
확률 및 정보 이론:
- Bayesian Inference: 새로운 증거가 나타날 때마다 가설의 확률을 갱신하는 통계적 추론 방식.
- Information Theory: 데이터의 압축, 전송 및 엔트로피(Entropy)를 다루는 통신과 학습의 기초 이론.
도메인별 AI 응용:
- Computer Vision: 이미지 및 비디오 데이터의 특징 추출(CNN), 객체 탐지(YOLO, Faster R-CNN), 분할 및 생성.
- NLP (Natural Language Processing): 언어의 구문 분석, 감성 분석, 기계 번역 및 텍스트 생성.
데이터 엔지니어링 및 사이언스:
- EDA (Exploratory Data Analysis): 데이터의 특성과 패턴을 시각화 및 통계적으로 파악.
- 데이터 정제: 결측치, 이상치 처리 및 피처 엔지니어링을 통한 모델 성능 극대화.
MLOps 및 실전 배포:
- 실험 관리: MLflow 등을 활용한 하이퍼파라미터 및 모델 버전 관리.
- 서빙 아키텍처: 모델을 API 형태로 배포하고 데이터 드리프트를 실시간 모니터링.

🤖 LLM 활용 힌트 (How to Use This Knowledge)

언제 이 지식을 쓰는가:

데이터 기반의 예측 모델이나 추천 시스템을 기획하고 개발할 때.
Stable Diffusion, DALL-E 등 생성형 AI 모델의 작동 원리를 이해하고 커스텀 학습(LoRA 등)을 수행할 때.
파이썬 기반의 데이터 분석 파이프라인을 구축하거나 성능 튜닝이 필요할 때.

언제 이 지식을 쓰면 안 되는가:

단순한 규칙 기반 알고리즘으로 충분히 해결 가능한 문제.

이 지식을 적용할 때의 권장 절차:

문제 정의: 비즈니스 목표를 데이터 사이언스 문제(분류, 회귀 등)로 치환.
데이터 확보 및 분석: 원천 데이터를 수집하고 EDA를 통해 데이터의 질 파악.
모델링: 데이터 크기와 복잡도에 따라 적절한 알고리즘(트리 기반 vs 신경망) 선택.
평가 및 최적화: 정밀도(Precision), 재현율(Recall) 등 지표를 기반으로 모델 튜닝.
배포 및 관리: MLOps 프로세스에 따라 모델을 배포하고 지속적으로 성능 관리.

주의사항 또는 알려진 한계:

데이터 의존성: 모델의 성능은 학습 데이터의 양과 질에 절대적으로 의존함 (GIGO).
모델 붕괴 (Model Collapse): AI가 생성한 합성 데이터를 다시 학습에 활용할 경우, 시간이 지남에 따라 모델의 정확성과 신뢰성이 저하되는 현상 주의.
해석 가능성: 복잡한 딥러닝 모델은 결과 도출 근거를 설명하기 어려울 수 있으므로 XAI 기법 병행 권장.

🧪 검증 상태 (Validation)

정보 상태: verified
출처 신뢰도: B
검토 이유: 해당 없음

🧬 중복 검사 (Duplicate Check)

기존 유사 문서: Machine Learning (ML), Deep Learning, Neural Networks, Generative AI, Diffusion 모델 작동 원리 등 150여 개
처리 방식: MERGE
처리 이유: 기초 통계부터 딥러닝, 생성형 AI, 그리고 MLOps까지 AI 엔지니어링 전반을 다룬 수많은 중복 문서를 통합하여 전사적 AI 지능 아키텍처 표준으로 구축함.

⚠️ 모순 및 업데이트 (Contradictions & Updates)

과거 데이터와의 충돌: 없음
정책 변화: 단순한 분석 도구 활용에서 '데이터 중심(Data-centric)의 파이프라인 자동화' 및 '생성형 AI의 실전적 응용'으로 초점 이동.

🔗 지식 연결 (Graph)

Parent: 10_Wiki/Topics
Related: , AI_이미지_생성_워크플로우
Raw Source: 직접 입력

🕓 변경 이력 (Changelog)

날짜	변경 내용	처리 방식	신뢰도
2026-05-07	150개 이상의 AI/ML/데이터 사이언스 관련 중복 문서를 통합 및 v3.0 규격 적용	MERGE	B

💻 코드 패턴 (Code Patterns)

패턴 1: (TODO: 이 프로젝트 컨벤션 반영한 구조 스켈레톤)

# TODO

🤔 의사결정 기준 (Decision Criteria)

선택 A를 써야 할 때:

(TODO)

선택 B를 써야 할 때:

(TODO)

기본값:

(TODO)

❌ 안티패턴 (Anti-Patterns)

[안티패턴]: (TODO: 무엇을 하면 안 되는가 + 이유 + 대신 무엇을)

7.7 KiB Raw Blame History