2nd/10_Wiki/Topics_GD/Learning-Rate-Scheduling.md

---
id: LR-SCHED-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 1.0
tags: [machine-learning, [[Optimization|Optimization]], learning-rate, training-[[Strategy|Strategy]]]
last_reinforced: 2026-04-26
---

# Learning Rate Scheduling (학습률 스케줄링)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "학습의 속도를 시간에 따라 영리하게 조절하라" — 고정된 학습률 대신 학습의 진행 정도에 따라 최적의 보폭(Step size)을 동적으로 변경하여, 전역 최적해(Global Optima)에 더 빠르고 정확하게 도달하게 만드는 기법.

## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** 학습 초기에는 큰 보폭으로 빠르게 탐색하고, 후기에는 작은 보폭으로 정교하게 수렴해가는 '점진적 감쇠(Decay)' 패턴.
- **주요 전략:**
    - **Step Decay:** 일정 에포크마다 학습률을 고정 비율로 감소.
    - **Exponential Decay:** 매 단계마다 지수 함수적으로 감소시켜 부드러운 수렴 유도.
    - **Cosine Annealing:** 코사인 함수를 따라 학습률을 조절. 최근 트랜스포머 학습의 대세.
    - **Warm-up:** 학습 극초기에 아주 낮은 학습률에서 시작하여 점진적으로 높여 모델이 초기에 발산하는 것을 방지.
    - **ReduceLROnPlateau:** 성능 향상이 멈췄을 때만 학습률을 낮추는 적응형 전략.

## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 단순히 작게 시작하던 방식에서, 최근에는 대규모 모델의 안정성을 위해 '웜업'과 '코사인 스케줄링'의 조합이 필수 공식으로 굳어짐.
- **정책 변화:** Antigravity 에이전트의 파인튜닝 프로세스 설계 시, 학습 효율 극대화를 위해 AdamW 옵티마이저와 코사인 웜업 스케줄러를 기본 사양으로 설정함.

## 🔗 지식 연결 (Graph)
- [[Optimization|Optimization]], AdamW-Optimizer, [[Deep-Learning|Deep-Learning]], [[Gradient-Descent|Gradient-Descent]]
- **Raw Source:** 10_Wiki/Topics/AI/Learning-Rate-Scheduling.md