Learning Rate Schedules (학습률 스케줄)

📌 한 줄 통찰 (The Karpathy Summary)

"초반에는 과감하게 탐색하고, 정답에 가까워질수록 신중하게 발을 내딛어라" — 학습 과정에서 학습률을 고정하지 않고 사전에 정의된 규칙에 따라 점진적으로 변화시킴으로써, 최적해에 더 빠르고 정밀하게 도달하게 하는 최적화 전략.

추출된 패턴: "Adaptive Speed Control" — 학습 초기에는 큰 학습률로 지역 최적해(Local Optima)를 빠르게 탈출하고, 후기에는 학습률을 줄여(Decay) 손실 함수의 곡면에서 미세하게 진동하며 정교한 최적점을 찾는 스케줄링 패턴.
주요 스케줄링 기법:
- Step Decay: 특정 에포크(Epoch)마다 고정된 비율로 학습률 감소.
- Exponential Decay: 지수 함수를 따라 매 단계마다 부드럽게 감소.
- Cosine Annealing: 코사인 곡선을 그리며 학습률을 조절. 탈출과 안착의 균형이 좋아 최근 선호됨.
- Warm-up: 학습 극초반에 아주 작은 학습률에서 시작하여 점차 높임으로써, 초기 가중치 불안정성을 극복.
의의: 모델의 수렴 속도를 높일 뿐만 아니라, 최종적인 모델의 일반화 성능(Test Accuracy)을 결정짓는 핵심 하이퍼파라미터 관리 기술.

과거 데이터와의 충돌: 고정된 학습률이 안전하다는 고정관념에서 벗어나, 이제는 동적인 스케줄링이 대규모 모델 학습의 필수 성공 요건으로 정착됨.
정책 변화: Antigravity 프로젝트는 거대 언어 모델 미세 조정 시, 초기 불안정성을 제어하기 위한 Linear Warm-up과 최적의 안착을 위한 Cosine Decay 스케줄러를 결합하여 사용함.

Global-vs-Local-Optima, Gradient-Descent-Foundations, HyperParameter-Optimization, Weight-Initialization-Strategies
Raw Source: 10_Wiki/Topics/AI/Learning-Rate-Schedules.md