bluemsi/2nd

Files

T

koriweb 3d9d0077cc feat: organize and categorize 1535 knowledge assets into wiki topics (2026-04-29)

2026-04-29 18:14:09 +09:00

2.0 KiB

Raw Blame History

id, category, confidence_score, tags, last_reinforced

id

category

confidence_score

tags

last_reinforced

LR-SCHED-001

10_Wiki/💡 Topics/AI

1.0

machine-learning

optimization

learning-rate

training-strategy

2026-04-26

Learning Rate Scheduling (학습률 스케줄링)

📌 한 줄 통찰 (The Karpathy Summary)

"학습의 속도를 시간에 따라 영리하게 조절하라" — 고정된 학습률 대신 학습의 진행 정도에 따라 최적의 보폭(Step size)을 동적으로 변경하여, 전역 최적해(Global Optima)에 더 빠르고 정확하게 도달하게 만드는 기법.

📖 구조화된 지식 (Synthesized Content)

추출된 패턴: 학습 초기에는 큰 보폭으로 빠르게 탐색하고, 후기에는 작은 보폭으로 정교하게 수렴해가는 '점진적 감쇠(Decay)' 패턴.
주요 전략:
- Step Decay: 일정 에포크마다 학습률을 고정 비율로 감소.
- Exponential Decay: 매 단계마다 지수 함수적으로 감소시켜 부드러운 수렴 유도.
- Cosine Annealing: 코사인 함수를 따라 학습률을 조절. 최근 트랜스포머 학습의 대세.
- Warm-up: 학습 극초기에 아주 낮은 학습률에서 시작하여 점진적으로 높여 모델이 초기에 발산하는 것을 방지.
- ReduceLROnPlateau: 성능 향상이 멈췄을 때만 학습률을 낮추는 적응형 전략.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

과거 데이터와의 충돌: 단순히 작게 시작하던 방식에서, 최근에는 대규모 모델의 안정성을 위해 '웜업'과 '코사인 스케줄링'의 조합이 필수 공식으로 굳어짐.
정책 변화: Antigravity 에이전트의 파인튜닝 프로세스 설계 시, 학습 효율 극대화를 위해 AdamW 옵티마이저와 코사인 웜업 스케줄러를 기본 사양으로 설정함.

🔗 지식 연결 (Graph)

Optimization, AdamW-Optimizer, Deep-Learning, Gradient-Descent
Raw Source: 10_Wiki/Topics/AI/Learning-Rate-Scheduling.md