83 lines
6.0 KiB
Markdown
83 lines
6.0 KiB
Markdown
---
|
|
category: Unified
|
|
tags: [auto-consolidated, technical-documentation]
|
|
title: Supervised Learning Foundations (지도 학습 기초)
|
|
last_updated: 2026-05-02
|
|
---
|
|
|
|
# Supervised Learning Foundations (지도 학습 기초)
|
|
|
|
## 📌 Brief Summary
|
|
> "정답지가 있는 데이터를 통해 문제와 해답 사이의 지도를 그려라" — 입력 데이터(Feature)와 정답(Label) 쌍을 학습하여, 새로운 입력이 들어왔을 때 정답을 예측하는 함수를 근사하는 가장 전형적인 머신러닝 방식.
|
|
|
|
---
|
|
|
|
> "정답이 있는 공부: 문제(Data)와 정답(Label)이 짝지어진 데이터를 반복 학습하여, 나중에 새로운 문제가 나왔을 때 과거의 정답 패턴을 토대로 정답을 '예측'하게 만드는 가장 확실하고 강력한 조기 교육 기술."
|
|
|
|
---
|
|
|
|
지도 학습(Supervised Learning)은 정답(Label)이 포함된 데이터를 통해 입력(Feature)과 출력 사이의 관계를 학습하여 미지의 데이터에 대한 정답을 예측하는 머신러닝 방법론입니다 [1, 2]. 사람이 라벨링한 데이터를 바탕으로 '문제'와 '해설지' 사이의 지도를 그리는 과정에 비유할 수 있습니다 [1].
|
|
|
|
## 📖 Core Content
|
|
- **추출된 패턴:** 사람이 라벨링한 풍부한 예시 데이터를 바탕으로 데이터 간의 통계적 관계를 파악하고, 이를 통해 미지의 데이터에 대한 범주(Classification)나 수치(Regression)를 추론하는 패턴.
|
|
- **핵심 요소:**
|
|
- **Dataset:** 입력(X)과 정답(Y)의 쌍으로 구성된 데이터셋.
|
|
- **Classification:** 이산적인 카테고리 중 하나로 분류 (예: 스팸 여부, 개/고양이 구분).
|
|
- **Regression:** 연속적인 수치를 예측 (예: 집값 예측, 주식 가격 추이).
|
|
- **Loss Minimization:** 모델의 예측값과 실제 정답 사이의 차이를 줄이는 방향으로 가중치 업데이트.
|
|
|
|
---
|
|
|
|
지도 학습(Supervised-Learning)은 정답(레이블)이 포함된 데이터를 사용하여 모델을 학습시키는 머신러닝의 가장 보편적인 유형입니다.
|
|
|
|
1. **양대 과업**:
|
|
* **Classification (분류)**: "이 사진은 고양이인가 개인가?"처럼 범주 선택.
|
|
* **Regression (회귀)**: "이 집의 가격은 얼마일까?"처럼 수치 예측. (Statistical-[[Analysis|Analysis]]와 연결)
|
|
2. **동작 원리**:
|
|
* 모델의 예측값과 실제 정답 사이의 오차(Loss)를 줄이는 방향으로 파라미터를 계속 수정. ([[Optimization|Optimization]]와 연결)
|
|
3. **왜 중요한가?**:
|
|
* 스팸 메일 차단, 얼굴 인식, 질병 진단 등 현실에서 가장 정확하고 즉시 이익을 창출하는 AI 기술의 80% 이상이 지도 학습 기반이기 때문임.
|
|
|
|
---
|
|
|
|
* **주요 문제 유형**
|
|
- **분류 (Classification)**: 데이터를 이산적인 범주 중 하나로 나누는 작업입니다 (예: 스팸 메일 분류, 개/고양이 구분) [1, 3].
|
|
- **회귀 (Regression)**: 연속적인 수치를 예측하는 작업입니다 (예: 주택 가격 예측, 매출 전망) [1, 3].
|
|
|
|
* **학습 프로세스**
|
|
- **데이터셋 구성**: 입력($x$)과 출력($y$)의 쌍으로 이루어진 학습 데이터를 준비합니다 [1, 4].
|
|
- **오차 최소화 (Loss Minimization)**: 모델의 예측값과 실제 정답 사이의 차이(Loss)를 계산하고, 이를 최소화하는 방향으로 파라미터를 반복적으로 업데이트합니다 [1, 5].
|
|
- **검증 및 평가**: 학습하지 않은 데이터에 대한 성능(일반화, Generalization)을 측정하여 과적합(Overfitting) 여부를 확인합니다 [1, 6].
|
|
|
|
## ⚖️ Trade-offs & Caveats
|
|
- **과거 데이터와의 충돌:** 초기 머신러닝의 주류였으나, 최근에는 막대한 양의 라벨링 비용 문제 때문에 자기 자기 지도 학습(Self-supervised Learning)과 상호 보완적인 관계로 발전 중.
|
|
- **정책 변화:** Antigravity 프로젝트는 문서 분류 및 감성 분석 등 명확한 기준이 필요한 태스크에 고도로 정제된 지도 학습 모델을 활용함.
|
|
|
|
---
|
|
|
|
- **과거 데이터와의 충돌**: 과거에는 모든 학습에 정답지 정책(Labeling)이 필수라 믿었으나, 현대 정책은 정답지 없이 배우는 '자기 지도 학습(Self-Supervised)' 정책으로 기본 지능 정책을 만든 뒤 지도 학습 정책으로 마지막 포인트 레슨 정책을 하는 방식으로 정교화됨(RL Update). ([[Self-Supervised-Learning|Self-Supervised-Learning]]와 연결)
|
|
- **정책 변화(RL Update)**: 단순히 정답 정책을 따라가는 정책을 넘어, 인간의 피드백 정책(RLHF)을 통해 '더 인간다운 답변 정책'을 고르는 고도화된 지도 학습 정책이 챗GPT와 같은 모델의 핵심임.
|
|
|
|
---
|
|
|
|
- **라벨링 비용**: 고품질의 라벨링된 데이터를 확보하는 데 많은 시간과 비용이 소요됩니다. 이를 극복하기 위해 자기 지도 학습(Self-supervised Learning) 등과 병행되기도 합니다 [1, 7].
|
|
- **과적합 (Overfitting)**: 학습 데이터를 너무 완벽하게 외우면 새로운 데이터에 대한 성능이 떨어질 수 있으므로 규제(Regularization)와 적절한 검증 전략이 필수적입니다 [1, 6].
|
|
|
|
## 🔗 Knowledge Connections
|
|
- Machine-Learning, [[Deep-Learning|Deep-Learning]], [[Objective-Functions|Objective-Functions]], [[Gradient-Descent|Gradient-Descent]]
|
|
- **Raw Source:** 10_Wiki/Topics/AI/Supervised-Learning (지도 학습 기초).md
|
|
|
|
---
|
|
|
|
- [[Self-Supervised-Learning|Self-Supervised-Learning]], [[Machine Learning (ML)|Machine Learning (ML)]], Deep Learning (DL), [[Optimization|Optimization]], [[Statistical-Analysis|Statistical-Analysis]]
|
|
- **Common Algo**: [[Logic|Logic]]istic Regression, Random Forest, CNN, SVM.
|
|
---
|
|
|
|
---
|
|
|
|
- **Related Topics**: 머신러닝 (Machine Learning, 비지도 학습 (Unsupervised Learning), 자기 지도 학습 (Self-supervised Learning), 손실 함수 (Loss Functions
|
|
- **Projects/Contexts**: 문서 자동 분류 시스템, 감성 분석 파이프라인
|
|
|
|
---
|
|
*Last updated: 2026-04-30*
|