Scheduler Design in ML (ML에서의 스케줄러 설계)

📌 한 줄 통찰 (The Karpathy Summary)

"학습 초기에는 대담한 탐색(High LR)을 장려하고, 종단에는 정밀한 수렴(Low LR)을 유도하여 모델의 잠재력을 마지막 한 방울까지 쥐어짜라" — 학습 과정 중에 학습률(Learning Rate)이나 자원 배분을 동적으로 변경하여 학습의 안정성과 최종 성능을 최적화하는 전략적 설계.

📖 구조화된 지식 (Synthesized Content)

추출된 패턴: "Decaying Learning Rate and Convergence Optimization" — 학습이 진행됨에 따라 오차가 줄어드는 속도를 감시하고, 사전에 정의된 정책(Schedule)에 따라 학습률을 점진적으로 낮춤으로써 지역 최적해(Local Minima)를 탈출하거나 전역 최적해에 부드럽게 안착시키는 패턴.
주요 스케줄러 기법:
- Step Decay: 정해진 에포크(Epoch)마다 학습률을 일정 비율로 축소.
- Cosine Annealing: 코사인 함수 곡선을 따라 학습률을 부드럽게 낮춤. 최근 가장 널리 쓰임.
- ReduceLROnPlateau: 성능 향상이 멈췄을 때만 지능적으로 학습률 인하.
- Warm-up: 초기 불안정성을 막기 위해 아주 작은 학습률에서 시작해 점차 높이는 과정.
의의: 고정된 학습률(Fixed LR)을 쓸 때보다 훨씬 빠르게 수렴하며, 모델이 가질 수 있는 최상의 정확도에 도달하게 하는 결정적 '디테일'의 영역.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

과거 데이터와의 충돌: 단순히 학습률을 낮추기만 하는 것이 정답이라던 과거와 달리, 이제는 학습률을 다시 높였다가 낮추는 'Cyclical Learning Rates' 방식이 안장점(Saddle Point) 탈출에 더 효과적임이 밝혀져 적극 도입되고 있음.
정책 변화: Antigravity 프로젝트는 대규모 모델 미세 조정 시, 학습 초기 발산을 방지하기 위한 Linear Warm-up과 최종 수렴 극대화를 위한 Cosine Decay 스케줄러를 표준 조합으로 사용함.

🔗 지식 연결 (Graph)

Optimization-Algorithms, Adam-Optimizer-Foundations, Hyperparameter-Tuning-Best-Practices, Deep-Learning-Foundations
Raw Source: 10_Wiki/Topics/AI/Scheduler-Design-in-ML.md

2.5 KiB Raw Blame History

Scheduler Design in ML (ML에서의 스케줄러 설계)

📌 한 줄 통찰 (The Karpathy Summary)

📖 구조화된 지식 (Synthesized Content)

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

🔗 지식 연결 (Graph)

2.5 KiB

Raw Blame History