2nd/10_Wiki/Topics/AI_and_ML/Machine Learning (Machine Learning).md

---
id: [[P-Reinforce|P-Reinforce]]-AUTO-ML-001
category: AI_and_ML
confidence_score: 1.00
tags: [auto-reinforced, machine-learning, ai-ethics, ml-bias, algorithm]
last_reinforced: 2026-05-04
---

# [[Machine Learning (Machine Learning)|Machine Learning (Machine Learning)]]

## 📌 한 줄 통찰 (The Karpathy Summary)
> "데이터로부터 배우는 명시적이지 않은 규칙: 개발자가 모든 예외 상황을 코딩하는 대신, 대량의 데이터 속에서 패턴을 찾아내어 예측이나 결정을 내릴 수 있도록 알고리즘을 학습시키는 기술."

## 📖 구조화된 지식 (Synthesized Content)
머신러닝(기계 학습)은 데이터를 활용하여 인공지능의 성능을 점진적으로 개선하는 알고리즘과 통계 모델의 연구 분야입니다.

1.  **주요 학습 패러다임**:
    *   **지도 학습 (Supervised Learning)**: 정답(Label)이 있는 데이터를 통해 입력과 출력 간의 관계를 학습합니다. (예: [[Learning to Rank (LTR)|LTR]], 스팸 분류)
    *   **비지도 학습 (Unsupervised Learning)**: 정답 없이 데이터의 숨겨진 구조나 패턴을 찾습니다. (예: [[Vector Search|Clustering]], 차원 축소)
    *   **강화 학습 (Reinforcement Learning)**: 환경과의 상호작용을 통해 보상을 최대화하는 행동을 학습합니다.

2.  **검색 시스템에서의 머신러닝**:
    *   [[Semantic Search|Semantic Search]]: 자연어의 문맥을 이해하기 위한 임베딩 생성.
    *   [[Learning to Rank (LTR)|Learning to Rank]]: 사용자 피드백을 기반으로 검색 결과의 순위를 최적화.
    *   [[Intent Recognition|Intent Recognition]]: 사용자의 검색 의도를 분류.

3.  **학습 알고리즘 모델**:
    *   신경망 기반: [[BERT|BERT]], Transformer, Deep Learning.
    *   트리 기반: [[Decision Tree & XGBoost|Decision Tree, XGBoost, LightGBM]].

## ⚖️ Trade-offs & Caveats
*   **Machine Learning Bias (편향성)**: 학습 데이터 자체가 특정 집단에 편향되어 있거나 대표성이 부족할 경우, 모델이 불공정하거나 차별적인 결과를 내놓을 수 있습니다. 이는 검색 결과의 다양성을 저해하고 사회적 문제를 야기할 수 있습니다.
*   **오버피팅 (Overfitting)**: 모델이 훈련 데이터에 너무 과하게 최적화되어 실제 새로운 데이터(Unseen data)에 대해서는 성능이 떨어지는 현상입니다.
*   **해석 가능성 (Interpretability)**: 딥러닝과 같은 복잡한 모델은 결과가 나온 이유를 설명하기 어려운 '블랙박스' 문제가 존재합니다.

## 💻 실전 구현 코드 (Boilerplate)
`Scikit-learn`을 활용한 가장 기본적인 지도 학습(분류) 파이프라인 예시입니다.

```python
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# 1. 데이터 로드 및 분할
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42)

# 2. 모델 선택 및 학습 (Random Forest)
model = RandomForestClassifier(n_estimators=100)
model.fit(X_train, y_train)

# 3. 예측 및 평가
predictions = model.predict(X_test)
print(f"Model Accuracy: {accuracy_score(y_test, predictions):.4f}")
```

## 🔗 지식 연결 (Graph)
*   **기반 기술**: [[Natural Language Processing (NLP)|NLP]], [[Computer Science and Theory|Computer Science]]
*   **핵심 기법**: [[Feature Engineering|Feature Engineering]], [[Learning to Rank (LTR)|Learning to Rank]]
*   **윤리/품질**: [[Machine Learning Bias|Bias]], [[Model Evaluation|평가 지표]]

---
*Last updated: 2026-05-04*