Momentum and Optimization (모멘텀과 최적화)

📌 한 줄 통찰 (The Karpathy Summary)

"기울기의 관성(Velocity)을 이용하여 평탄한 길은 빠르게 주파하고, 웅덩이(Local Minima)는 과감하게 뛰어넘어라" — 경사 하강법에 물리적인 '운동량' 개념을 도입하여, 이전 업데이트의 방향과 속도를 현재 학습에 반영함으로써 수렴 속도를 높이고 최적화의 안정성을 확보하는 기법.

📖 구조화된 지식 (Synthesized Content)

추출된 패턴: "Accumulated Velocity and Smoothing" — 매 순간의 기울기 변화에 일일이 반응하여 진동하는 대신, 과거의 이동 궤적을 누적하여 진행 방향의 일관성을 유지함으로써 지그재그 현상을 억제하고 전역 최적해를 향해 전진하는 최적화 패턴.
주요 기법:
- Standard Momentum: 과거 기울기의 가중 평균을 사용하여 현재 방향 결정.
- Nesterov Accelerated Gradient (NAG): 다음 단계의 예상 지점에서 기울기를 계산하여 '미리 보고' 조절하는 더 영리한 방식.
- Adam (Adaptive Moment Estimation): 모멘텀과 RMSProp(적응형 학습률)을 결합하여 현재 가장 널리 쓰이는 표준 최적화 알고리즘.
의의: 딥러닝 모델의 복잡한 손실 함수 곡면에서 안장점(Saddle Point)이나 지역 최적해에 갇히는 문제를 물리적 원리로 해결함.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

과거 데이터와의 충돌: 모멘텀이 항상 빠르다는 믿음에서 벗어나, 과도한 관성이 오히려 최적점을 지나쳐 버리는(Overshooting) 문제를 해결하기 위한 '감쇠(Damping)'와 '적응형 조절'의 중요성이 현대 최적화 이론의 핵심이 됨.
정책 변화: Antigravity 프로젝트는 거대 언어 모델의 가중치 업데이트 시, 안정적인 수렴과 일반화 성능을 극대화하기 위해 AdamW(가중치 감쇠가 포함된 Adam)와 적절한 모멘텀 계수(0.9)를 기본값으로 사용함.

🔗 지식 연결 (Graph)

Gradient-Descent-Foundations, HyperParameter-Optimization, Global-vs-Local-Optima, Deep-Learning-Foundations
Raw Source: 10_Wiki/Topics/AI/Momentum-and-Optimization.md

2.5 KiB Raw Blame History

Momentum and Optimization (모멘텀과 최적화)

📌 한 줄 통찰 (The Karpathy Summary)

📖 구조화된 지식 (Synthesized Content)

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

🔗 지식 연결 (Graph)

2.5 KiB

Raw Blame History