--- id: LR-SCHED-001 category: Unified confidence_score: 1.0 tags: [machine-learning, [[Optimization|Optimization]], learning-rate, training-[[Strategy|Strategy]]] last_reinforced: 2026-04-26 --- # Learning Rate Scheduling (학습률 스케줄링) ## 📌 한 줄 통찰 (The Karpathy Summary) > "학습의 속도를 시간에 따라 영리하게 조절하라" — 고정된 학습률 대신 학습의 진행 정도에 따라 최적의 보폭(Step size)을 동적으로 변경하여, 전역 최적해(Global Optima)에 더 빠르고 정확하게 도달하게 만드는 기법. ## 📖 구조화된 지식 (Synthesized Content) - **추출된 패턴:** 학습 초기에는 큰 보폭으로 빠르게 탐색하고, 후기에는 작은 보폭으로 정교하게 수렴해가는 '점진적 감쇠(Decay)' 패턴. - **주요 전략:** - **Step Decay:** 일정 에포크마다 학습률을 고정 비율로 감소. - **Exponential Decay:** 매 단계마다 지수 함수적으로 감소시켜 부드러운 수렴 유도. - **Cosine Annealing:** 코사인 함수를 따라 학습률을 조절. 최근 트랜스포머 학습의 대세. - **Warm-up:** 학습 극초기에 아주 낮은 학습률에서 시작하여 점진적으로 높여 모델이 초기에 발산하는 것을 방지. - **ReduceLROnPlateau:** 성능 향상이 멈췄을 때만 학습률을 낮추는 적응형 전략. ## ⚠️ 모순 및 업데이트 (Contradictions & RL Update) - **과거 데이터와의 충돌:** 단순히 작게 시작하던 방식에서, 최근에는 대규모 모델의 안정성을 위해 '웜업'과 '코사인 스케줄링'의 조합이 필수 공식으로 굳어짐. - **정책 변화:** Antigravity 에이전트의 파인튜닝 프로세스 설계 시, 학습 효율 극대화를 위해 AdamW 옵티마이저와 코사인 웜업 스케줄러를 기본 사양으로 설정함. ## 🔗 지식 연결 (Graph) - [[Optimization|Optimization]], AdamW-Optimizer, [[Deep-Learning|Deep-Learning]], [[Gradient-Descent|Gradient-Descent]] - **Raw Source:** 10_Wiki/Topics/AI/Learning-Rate-Scheduling.md