Files
2nd/10_Wiki/Topics/Learning-Rate-Scheduling.md
T

2.0 KiB

id, category, confidence_score, tags, last_reinforced
id category confidence_score tags last_reinforced
LR-SCHED-001 10_Wiki/💡 Topics/AI 1.0
machine-learning
optimization
learning-rate
training-strategy
2026-04-26

Learning Rate Scheduling (학습률 스케줄링)

📌 한 줄 통찰 (The Karpathy Summary)

"학습의 속도를 시간에 따라 영리하게 조절하라" — 고정된 학습률 대신 학습의 진행 정도에 따라 최적의 보폭(Step size)을 동적으로 변경하여, 전역 최적해(Global Optima)에 더 빠르고 정확하게 도달하게 만드는 기법.

📖 구조화된 지식 (Synthesized Content)

  • 추출된 패턴: 학습 초기에는 큰 보폭으로 빠르게 탐색하고, 후기에는 작은 보폭으로 정교하게 수렴해가는 '점진적 감쇠(Decay)' 패턴.
  • 주요 전략:
    • Step Decay: 일정 에포크마다 학습률을 고정 비율로 감소.
    • Exponential Decay: 매 단계마다 지수 함수적으로 감소시켜 부드러운 수렴 유도.
    • Cosine Annealing: 코사인 함수를 따라 학습률을 조절. 최근 트랜스포머 학습의 대세.
    • Warm-up: 학습 극초기에 아주 낮은 학습률에서 시작하여 점진적으로 높여 모델이 초기에 발산하는 것을 방지.
    • ReduceLROnPlateau: 성능 향상이 멈췄을 때만 학습률을 낮추는 적응형 전략.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

  • 과거 데이터와의 충돌: 단순히 작게 시작하던 방식에서, 최근에는 대규모 모델의 안정성을 위해 '웜업'과 '코사인 스케줄링'의 조합이 필수 공식으로 굳어짐.
  • 정책 변화: Antigravity 에이전트의 파인튜닝 프로세스 설계 시, 학습 효율 극대화를 위해 AdamW 옵티마이저와 코사인 웜업 스케줄러를 기본 사양으로 설정함.

🔗 지식 연결 (Graph)