2nd/10_Wiki/Topics_Blog/Self-Supervised-Learning.md

---
id: AI-SELF-SUP-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 1.0
tags: [ai, deep-learning, self-supervised-learning, contrastive-learning, pretext-task, foundations]
last_reinforced: 2026-04-26
---

# Self-Supervised Learning (자기지도 학습)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "데이터의 바다에서 정답지(Label)를 기다리지 말고, 데이터 스스로가 가진 내부 구조를 파고들어 지능의 본질을 깨워라" — 레이블이 없는 방대한 데이터로부터 스스로 정답(Pseudo-label)을 만들어 학습함으로써, 인간 수준의 상식과 일반화 능력을 획득하는 인공지능 학습 방법론.

## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** "Pretext Task and Representation Distillation" — 문장의 다음 단어를 맞추거나(BERT/GPT), 이미지의 일부를 가리고 복원하거나, 혹은 같은 이미지의 다른 변형을 가깝게 배치하는(Contrastive Learning) 등의 '가짜 문제'를 통해 데이터의 핵심 특징(Representation)을 추출하는 패턴.
- **주요 기법:**
    - **Generative:** 데이터의 누락된 부분을 생성하며 학습 (예: GPT).
    - **Contrastive:** 서로 다른 샘플 간의 유사성과 차이점을 비교하며 학습 (예: SimCLR, CLIP).
    - **Predictive:** 데이터의 순서나 회전 상태 등을 예측하며 학습.
- **의의:** 값비싼 인간의 레이블링 작업 없이도 무한한 인터넷 데이터를 지능의 땔감으로 사용할 수 있게 하여, 초거대 AI 모델 탄생의 결정적인 기폭제가 됨.

## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 비지도 학습(Unsupervised)의 하위 범주로 여겨졌으나, 이제는 데이터가 '스스로 지도한다'는 능동적 의미를 담아 독립적인 패러다임으로 정착되었으며, 지도 학습보다 더 강력한 범용 표현을 형성할 수 있음이 입증됨.
- **정책 변화:** Antigravity 프로젝트는 에이전트의 기본 언어 모델 및 임베딩 모델 구축 시, 대규모 비정형 지식 데이터를 가장 효과적으로 자산화할 수 있는 자기지도 학습 기반의 파이프라인을 최우선으로 고려함.

## 🔗 지식 연결 (Graph)
- [[Representation-Learning|Representation-Learning]], Deep-Learning-Foundations, [[Natural-Language-Processing-NLP|Natural-Language-Processing-NLP]], LLM-Training-Foundations
- **Raw Source:** 10_Wiki/Topics/AI/Self-Supervised-Learning.md