2nd/10_Wiki/Topics_Blog/Learning-Rate-Schedules.md

---
id: DL-LR-SCHED-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 1.0
tags: [ai, deep-learning, optimization, learning-rate, scheduler, training-stability]
last_reinforced: 2026-04-26
---

# Learning Rate Schedules (학습률 스케줄)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "초반에는 과감하게 탐색하고, 정답에 가까워질수록 신중하게 발을 내딛어라" — 학습 과정에서 학습률을 고정하지 않고 사전에 정의된 규칙에 따라 점진적으로 변화시킴으로써, 최적해에 더 빠르고 정밀하게 도달하게 하는 최적화 전략.

## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** "Adaptive Speed Control" — 학습 초기에는 큰 학습률로 지역 최적해(Local Optima)를 빠르게 탈출하고, 후기에는 학습률을 줄여(Decay) 손실 함수의 곡면에서 미세하게 진동하며 정교한 최적점을 찾는 스케줄링 패턴.
- **주요 스케줄링 기법:**
    - **Step Decay:** 특정 에포크(Epoch)마다 고정된 비율로 학습률 감소.
    - **Exponential Decay:** 지수 함수를 따라 매 단계마다 부드럽게 감소.
    - **Cosine Annealing:** 코사인 곡선을 그리며 학습률을 조절. 탈출과 안착의 균형이 좋아 최근 선호됨.
    - **Warm-up:** 학습 극초반에 아주 작은 학습률에서 시작하여 점차 높임으로써, 초기 가중치 불안정성을 극복.
- **의의:** 모델의 수렴 속도를 높일 뿐만 아니라, 최종적인 모델의 일반화 성능(Test Accuracy)을 결정짓는 핵심 하이퍼파라미터 관리 기술.

## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 고정된 학습률이 안전하다는 고정관념에서 벗어나, 이제는 동적인 스케줄링이 대규모 모델 학습의 필수 성공 요건으로 정착됨.
- **정책 변화:** Antigravity 프로젝트는 거대 언어 모델 미세 조정 시, 초기 불안정성을 제어하기 위한 Linear Warm-up과 최적의 안착을 위한 Cosine Decay 스케줄러를 결합하여 사용함.

## 🔗 지식 연결 (Graph)
- [[Global-vs-Local-Optima|Global-vs-Local-Optima]], Gradient-Descent-Foundations, [[Hyperparameter-Optimization|Hyperparameter-Optimization]], Weight-Initialization-Strategies
- **Raw Source:** 10_Wiki/Topics/AI/Learning-Rate-Schedules.md