0441f6e2a2
- Formalized automatic record migration protocol in System Manual. - Integrated high-density knowledge for RAG, AI, Business Strategy, and Leadership. - Enhanced graph connectivity across core strategic hubs. - Archived raw data and updated timeline records.
65 lines
3.7 KiB
Markdown
65 lines
3.7 KiB
Markdown
---
|
|
id: [[P-Reinforce|P-Reinforce]]-AUTO-ML-001
|
|
category: AI_and_ML
|
|
confidence_score: 1.00
|
|
tags: [auto-reinforced, machine-learning, ai-ethics, ml-bias, algorithm]
|
|
last_reinforced: 2026-05-04
|
|
---
|
|
|
|
# [[Machine Learning (Machine Learning)|Machine Learning (Machine Learning)]]
|
|
|
|
## 📌 한 줄 통찰 (The Karpathy Summary)
|
|
> "데이터로부터 배우는 명시적이지 않은 규칙: 개발자가 모든 예외 상황을 코딩하는 대신, 대량의 데이터 속에서 패턴을 찾아내어 예측이나 결정을 내릴 수 있도록 알고리즘을 학습시키는 기술."
|
|
|
|
## 📖 구조화된 지식 (Synthesized Content)
|
|
머신러닝(기계 학습)은 데이터를 활용하여 인공지능의 성능을 점진적으로 개선하는 알고리즘과 통계 모델의 연구 분야입니다.
|
|
|
|
1. **주요 학습 패러다임**:
|
|
* **지도 학습 (Supervised Learning)**: 정답(Label)이 있는 데이터를 통해 입력과 출력 간의 관계를 학습합니다. (예: [[Learning to Rank (LTR)|LTR]], 스팸 분류)
|
|
* **비지도 학습 (Unsupervised Learning)**: 정답 없이 데이터의 숨겨진 구조나 패턴을 찾습니다. (예: [[Vector Search|Clustering]], 차원 축소)
|
|
* **강화 학습 (Reinforcement Learning)**: 환경과의 상호작용을 통해 보상을 최대화하는 행동을 학습합니다.
|
|
|
|
2. **검색 시스템에서의 머신러닝**:
|
|
* [[Semantic Search|Semantic Search]]: 자연어의 문맥을 이해하기 위한 임베딩 생성.
|
|
* [[Learning to Rank (LTR)|Learning to Rank]]: 사용자 피드백을 기반으로 검색 결과의 순위를 최적화.
|
|
* [[Intent Recognition|Intent Recognition]]: 사용자의 검색 의도를 분류.
|
|
|
|
3. **학습 알고리즘 모델**:
|
|
* 신경망 기반: [[BERT|BERT]], Transformer, Deep Learning.
|
|
* 트리 기반: [[Decision Tree & XGBoost|Decision Tree, XGBoost, LightGBM]].
|
|
|
|
## ⚖️ Trade-offs & Caveats
|
|
* **Machine Learning Bias (편향성)**: 학습 데이터 자체가 특정 집단에 편향되어 있거나 대표성이 부족할 경우, 모델이 불공정하거나 차별적인 결과를 내놓을 수 있습니다. 이는 검색 결과의 다양성을 저해하고 사회적 문제를 야기할 수 있습니다.
|
|
* **오버피팅 (Overfitting)**: 모델이 훈련 데이터에 너무 과하게 최적화되어 실제 새로운 데이터(Unseen data)에 대해서는 성능이 떨어지는 현상입니다.
|
|
* **해석 가능성 (Interpretability)**: 딥러닝과 같은 복잡한 모델은 결과가 나온 이유를 설명하기 어려운 '블랙박스' 문제가 존재합니다.
|
|
|
|
## 💻 실전 구현 코드 (Boilerplate)
|
|
`Scikit-learn`을 활용한 가장 기본적인 지도 학습(분류) 파이프라인 예시입니다.
|
|
|
|
```python
|
|
from sklearn.datasets import load_iris
|
|
from sklearn.model_selection import train_test_split
|
|
from sklearn.ensemble import RandomForestClassifier
|
|
from sklearn.metrics import accuracy_score
|
|
|
|
# 1. 데이터 로드 및 분할
|
|
iris = load_iris()
|
|
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42)
|
|
|
|
# 2. 모델 선택 및 학습 (Random Forest)
|
|
model = RandomForestClassifier(n_estimators=100)
|
|
model.fit(X_train, y_train)
|
|
|
|
# 3. 예측 및 평가
|
|
predictions = model.predict(X_test)
|
|
print(f"Model Accuracy: {accuracy_score(y_test, predictions):.4f}")
|
|
```
|
|
|
|
## 🔗 지식 연결 (Graph)
|
|
* **기반 기술**: [[Natural Language Processing (NLP)|NLP]], [[Computer Science and Theory|Computer Science]]
|
|
* **핵심 기법**: [[Feature Engineering|Feature Engineering]], [[Learning to Rank (LTR)|Learning to Rank]]
|
|
* **윤리/품질**: [[Machine Learning Bias|Bias]], [[Model Evaluation|평가 지표]]
|
|
|
|
---
|
|
*Last updated: 2026-05-04*
|