---
id: DL-OPT-MOM-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 1.0
tags: [ai, deep-learning, optimization, momentum, gradient-descent, adam]
last_reinforced: 2026-04-26
---

# Momentum and Optimization (모멘텀과 최적화)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "기울기의 관성(Velocity)을 이용하여 평탄한 길은 빠르게 주파하고, 웅덩이(Local Minima)는 과감하게 뛰어넘어라" — 경사 하강법에 물리적인 '운동량' 개념을 도입하여, 이전 업데이트의 방향과 속도를 현재 학습에 반영함으로써 수렴 속도를 높이고 최적화의 안정성을 확보하는 기법.

## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** "Accumulated Velocity and Smoothing" — 매 순간의 기울기 변화에 일일이 반응하여 진동하는 대신, 과거의 이동 궤적을 누적하여 진행 방향의 일관성을 유지함으로써 지그재그 현상을 억제하고 전역 최적해를 향해 전진하는 최적화 패턴.
- **주요 기법:**
    - **Standard Momentum:** 과거 기울기의 가중 평균을 사용하여 현재 방향 결정.
    - **Nesterov Accelerated Gradient (NAG):** 다음 단계의 예상 지점에서 기울기를 계산하여 '미리 보고' 조절하는 더 영리한 방식.
    - **Adam (Adaptive Moment Estimation):** 모멘텀과 RMSProp(적응형 학습률)을 결합하여 현재 가장 널리 쓰이는 표준 최적화 알고리즘.
- **의의:** 딥러닝 모델의 복잡한 손실 함수 곡면에서 안장점(Saddle Point)이나 지역 최적해에 갇히는 문제를 물리적 원리로 해결함.

## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 모멘텀이 항상 빠르다는 믿음에서 벗어나, 과도한 관성이 오히려 최적점을 지나쳐 버리는(Overshooting) 문제를 해결하기 위한 '감쇠(Damping)'와 '적응형 조절'의 중요성이 현대 최적화 이론의 핵심이 됨.
- **정책 변화:** Antigravity 프로젝트는 거대 언어 모델의 가중치 업데이트 시, 안정적인 수렴과 일반화 성능을 극대화하기 위해 AdamW(가중치 감쇠가 포함된 Adam)와 적절한 모멘텀 계수(0.9)를 기본값으로 사용함.

## 🔗 지식 연결 (Graph)
- Gradient-Descent-Foundations, [[Hyperparameter-Optimization|Hyperparameter-Optimization]], [[Global-vs-Local-Optima|Global-vs-Local-Optima]], Deep-Learning-Foundations
- **Raw Source:** 10_Wiki/Topics/AI/Momentum-and-Optimization.md