Files
2nd/10_Wiki/Topics_GD/Learning-Rate-Schedules.md
T

2.4 KiB

id, category, confidence_score, tags, last_reinforced
id category confidence_score tags last_reinforced
DL-LR-SCHED-001 10_Wiki/💡 Topics/AI 1.0
ai
Deep-Learning|Deep-Learning
Optimization|Optimization
learning-rate
scheduler
training-Stability
2026-04-26

Learning Rate Schedules (학습률 스케줄)

📌 한 줄 통찰 (The Karpathy Summary)

"초반에는 과감하게 탐색하고, 정답에 가까워질수록 신중하게 발을 내딛어라" — 학습 과정에서 학습률을 고정하지 않고 사전에 정의된 규칙에 따라 점진적으로 변화시킴으로써, 최적해에 더 빠르고 정밀하게 도달하게 하는 최적화 전략.

📖 구조화된 지식 (Synthesized Content)

  • 추출된 패턴: "Adaptive Speed Control" — 학습 초기에는 큰 학습률로 지역 최적해(Local Optima)를 빠르게 탈출하고, 후기에는 학습률을 줄여(Decay) 손실 함수의 곡면에서 미세하게 진동하며 정교한 최적점을 찾는 스케줄링 패턴.
  • 주요 스케줄링 기법:
    • Step Decay: 특정 에포크(Epoch)마다 고정된 비율로 학습률 감소.
    • Exponential Decay: 지수 함수를 따라 매 단계마다 부드럽게 감소.
    • Cosine Annealing: 코사인 곡선을 그리며 학습률을 조절. 탈출과 안착의 균형이 좋아 최근 선호됨.
    • Warm-up: 학습 극초반에 아주 작은 학습률에서 시작하여 점차 높임으로써, 초기 가중치 불안정성을 극복.
  • 의의: 모델의 수렴 속도를 높일 뿐만 아니라, 최종적인 모델의 일반화 성능(Test Accuracy)을 결정짓는 핵심 하이퍼파라미터 관리 기술.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

  • 과거 데이터와의 충돌: 고정된 학습률이 안전하다는 고정관념에서 벗어나, 이제는 동적인 스케줄링이 대규모 모델 학습의 필수 성공 요건으로 정착됨.
  • 정책 변화: Antigravity 프로젝트는 거대 언어 모델 미세 조정 시, 초기 불안정성을 제어하기 위한 Linear Warm-up과 최적의 안착을 위한 Cosine Decay 스케줄러를 결합하여 사용함.

🔗 지식 연결 (Graph)