Momentum and Optimization (모멘텀과 최적화)

📌 한 줄 통찰 (The Karpathy Summary)

"기울기의 관성(Velocity)을 이용하여 평탄한 길은 빠르게 주파하고, 웅덩이(Local Minima)는 과감하게 뛰어넘어라" — 경사 하강법에 물리적인 '운동량' 개념을 도입하여, 이전 업데이트의 방향과 속도를 현재 학습에 반영함으로써 수렴 속도를 높이고 최적화의 안정성을 확보하는 기법.

📖 구조화된 지식 (Synthesized Content)

추출된 패턴: "Accumulated Velocity and Smoothing" — 매 순간의 기울기 변화에 일일이 반응하여 진동하는 대신, 과거의 이동 궤적을 누적하여 진행 방향의 일관성을 유지함으로써 지그재그 현상을 억제하고 전역 최적해를 향해 전진하는 최적화 패턴.
주요 기법:
- Standard Momentum: 과거 기울기의 가중 평균을 사용하여 현재 방향 결정.
- Nesterov Accelerated Gradient (NAG): 다음 단계의 예상 지점에서 기울기를 계산하여 '미리 보고' 조절하는 더 영리한 방식.
- Adam (Adaptive Moment Estimation): 모멘텀과 RMSProp(적응형 학습률)을 결합하여 현재 가장 널리 쓰이는 표준 최적화 알고리즘.
의의: 딥러닝 모델의 복잡한 손실 함수 곡면에서 안장점(Saddle Point)이나 지역 최적해에 갇히는 문제를 물리적 원리로 해결함.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

과거 데이터와의 충돌: 모멘텀이 항상 빠르다는 믿음에서 벗어나, 과도한 관성이 오히려 최적점을 지나쳐 버리는(Overshooting) 문제를 해결하기 위한 '감쇠(Damping)'와 '적응형 조절'의 중요성이 현대 최적화 이론의 핵심이 됨.
정책 변화: Antigravity 프로젝트는 거대 언어 모델의 가중치 업데이트 시, 안정적인 수렴과 일반화 성능을 극대화하기 위해 AdamW(가중치 감쇠가 포함된 Adam)와 적절한 모멘텀 계수(0.9)를 기본값으로 사용함.

2.5 KiB Raw Blame History

Momentum and Optimization (모멘텀과 최적화)

📌 한 줄 통찰 (The Karpathy Summary)

📖 구조화된 지식 (Synthesized Content)

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

🔗 지식 연결 (Graph)

2.5 KiB

Raw Blame History