6.0 KiB
6.0 KiB
category, tags, title, last_updated
| category | tags | title | last_updated | ||
|---|---|---|---|---|---|
| Unified |
|
Supervised Learning Foundations (지도 학습 기초) | 2026-05-02 |
Supervised Learning Foundations (지도 학습 기초)
📌 Brief Summary
"정답지가 있는 데이터를 통해 문제와 해답 사이의 지도를 그려라" — 입력 데이터(Feature)와 정답(Label) 쌍을 학습하여, 새로운 입력이 들어왔을 때 정답을 예측하는 함수를 근사하는 가장 전형적인 머신러닝 방식.
"정답이 있는 공부: 문제(Data)와 정답(Label)이 짝지어진 데이터를 반복 학습하여, 나중에 새로운 문제가 나왔을 때 과거의 정답 패턴을 토대로 정답을 '예측'하게 만드는 가장 확실하고 강력한 조기 교육 기술."
지도 학습(Supervised Learning)은 정답(Label)이 포함된 데이터를 통해 입력(Feature)과 출력 사이의 관계를 학습하여 미지의 데이터에 대한 정답을 예측하는 머신러닝 방법론입니다 [1, 2]. 사람이 라벨링한 데이터를 바탕으로 '문제'와 '해설지' 사이의 지도를 그리는 과정에 비유할 수 있습니다 [1].
📖 Core Content
- 추출된 패턴: 사람이 라벨링한 풍부한 예시 데이터를 바탕으로 데이터 간의 통계적 관계를 파악하고, 이를 통해 미지의 데이터에 대한 범주(Classification)나 수치(Regression)를 추론하는 패턴.
- 핵심 요소:
- Dataset: 입력(X)과 정답(Y)의 쌍으로 구성된 데이터셋.
- Classification: 이산적인 카테고리 중 하나로 분류 (예: 스팸 여부, 개/고양이 구분).
- Regression: 연속적인 수치를 예측 (예: 집값 예측, 주식 가격 추이).
- Loss Minimization: 모델의 예측값과 실제 정답 사이의 차이를 줄이는 방향으로 가중치 업데이트.
지도 학습(Supervised-Learning)은 정답(레이블)이 포함된 데이터를 사용하여 모델을 학습시키는 머신러닝의 가장 보편적인 유형입니다.
- 양대 과업:
- Classification (분류): "이 사진은 고양이인가 개인가?"처럼 범주 선택.
- Regression (회귀): "이 집의 가격은 얼마일까?"처럼 수치 예측. (Statistical-Analysis와 연결)
- 동작 원리:
- 모델의 예측값과 실제 정답 사이의 오차(Loss)를 줄이는 방향으로 파라미터를 계속 수정. (Optimization와 연결)
- 왜 중요한가?:
- 스팸 메일 차단, 얼굴 인식, 질병 진단 등 현실에서 가장 정확하고 즉시 이익을 창출하는 AI 기술의 80% 이상이 지도 학습 기반이기 때문임.
-
주요 문제 유형
- 분류 (Classification): 데이터를 이산적인 범주 중 하나로 나누는 작업입니다 (예: 스팸 메일 분류, 개/고양이 구분) [1, 3].
- 회귀 (Regression): 연속적인 수치를 예측하는 작업입니다 (예: 주택 가격 예측, 매출 전망) [1, 3].
-
학습 프로세스
- 데이터셋 구성: 입력(
x)과 출력(y)의 쌍으로 이루어진 학습 데이터를 준비합니다 [1, 4]. - 오차 최소화 (Loss Minimization): 모델의 예측값과 실제 정답 사이의 차이(Loss)를 계산하고, 이를 최소화하는 방향으로 파라미터를 반복적으로 업데이트합니다 [1, 5].
- 검증 및 평가: 학습하지 않은 데이터에 대한 성능(일반화, Generalization)을 측정하여 과적합(Overfitting) 여부를 확인합니다 [1, 6].
- 데이터셋 구성: 입력(
⚖️ Trade-offs & Caveats
- 과거 데이터와의 충돌: 초기 머신러닝의 주류였으나, 최근에는 막대한 양의 라벨링 비용 문제 때문에 자기 자기 지도 학습(Self-supervised Learning)과 상호 보완적인 관계로 발전 중.
- 정책 변화: Antigravity 프로젝트는 문서 분류 및 감성 분석 등 명확한 기준이 필요한 태스크에 고도로 정제된 지도 학습 모델을 활용함.
- 과거 데이터와의 충돌: 과거에는 모든 학습에 정답지 정책(Labeling)이 필수라 믿었으나, 현대 정책은 정답지 없이 배우는 '자기 지도 학습(Self-Supervised)' 정책으로 기본 지능 정책을 만든 뒤 지도 학습 정책으로 마지막 포인트 레슨 정책을 하는 방식으로 정교화됨(RL Update). (Self-Supervised-Learning와 연결)
- 정책 변화(RL Update): 단순히 정답 정책을 따라가는 정책을 넘어, 인간의 피드백 정책(RLHF)을 통해 '더 인간다운 답변 정책'을 고르는 고도화된 지도 학습 정책이 챗GPT와 같은 모델의 핵심임.
- 라벨링 비용: 고품질의 라벨링된 데이터를 확보하는 데 많은 시간과 비용이 소요됩니다. 이를 극복하기 위해 자기 지도 학습(Self-supervised Learning) 등과 병행되기도 합니다 [1, 7].
- 과적합 (Overfitting): 학습 데이터를 너무 완벽하게 외우면 새로운 데이터에 대한 성능이 떨어질 수 있으므로 규제(Regularization)와 적절한 검증 전략이 필수적입니다 [1, 6].
🔗 Knowledge Connections
- Machine-Learning, Deep-Learning, Objective-Functions, Gradient-Descent
- Raw Source: 10_Wiki/Topics/AI/Supervised-Learning (지도 학습 기초).md
- Self-Supervised-Learning, Machine Learning (ML), Deep Learning (DL), Optimization, Statistical-Analysis
- Common Algo: Logicistic Regression, Random Forest, CNN, SVM.
- Related Topics: 머신러닝 (Machine Learning, 비지도 학습 (Unsupervised Learning), 자기 지도 학습 (Self-supervised Learning), 손실 함수 (Loss Functions
- Projects/Contexts: 문서 자동 분류 시스템, 감성 분석 파이프라인
Last updated: 2026-04-30