Files
2nd/10_Wiki/Topics/AI/Self-Supervised-Learning.md
T

2.4 KiB

id, category, confidence_score, tags, last_reinforced
id category confidence_score tags last_reinforced
AI-SELF-SUP-001 10_Wiki/💡 Topics/AI 1.0
ai
deep-learning
self-supervised-learning
contrastive-learning
pretext-task
foundations
2026-04-26

Self-Supervised Learning (자기지도 학습)

📌 한 줄 통찰 (The Karpathy Summary)

"데이터의 바다에서 정답지(Label)를 기다리지 말고, 데이터 스스로가 가진 내부 구조를 파고들어 지능의 본질을 깨워라" — 레이블이 없는 방대한 데이터로부터 스스로 정답(Pseudo-label)을 만들어 학습함으로써, 인간 수준의 상식과 일반화 능력을 획득하는 인공지능 학습 방법론.

📖 구조화된 지식 (Synthesized Content)

  • 추출된 패턴: "Pretext Task and Representation Distillation" — 문장의 다음 단어를 맞추거나(BERT/GPT), 이미지의 일부를 가리고 복원하거나, 혹은 같은 이미지의 다른 변형을 가깝게 배치하는(Contrastive Learning) 등의 '가짜 문제'를 통해 데이터의 핵심 특징(Representation)을 추출하는 패턴.
  • 주요 기법:
    • Generative: 데이터의 누락된 부분을 생성하며 학습 (예: GPT).
    • Contrastive: 서로 다른 샘플 간의 유사성과 차이점을 비교하며 학습 (예: SimCLR, CLIP).
    • Predictive: 데이터의 순서나 회전 상태 등을 예측하며 학습.
  • 의의: 값비싼 인간의 레이블링 작업 없이도 무한한 인터넷 데이터를 지능의 땔감으로 사용할 수 있게 하여, 초거대 AI 모델 탄생의 결정적인 기폭제가 됨.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

  • 과거 데이터와의 충돌: 비지도 학습(Unsupervised)의 하위 범주로 여겨졌으나, 이제는 데이터가 '스스로 지도한다'는 능동적 의미를 담아 독립적인 패러다임으로 정착되었으며, 지도 학습보다 더 강력한 범용 표현을 형성할 수 있음이 입증됨.
  • 정책 변화: Antigravity 프로젝트는 에이전트의 기본 언어 모델 및 임베딩 모델 구축 시, 대규모 비정형 지식 데이터를 가장 효과적으로 자산화할 수 있는 자기지도 학습 기반의 파이프라인을 최우선으로 고려함.

🔗 지식 연결 (Graph)