--- id: DL-OPT-MOM-001 category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 1.0 tags: [ai, deep-learning, optimization, momentum, gradient-descent, adam] last_reinforced: 2026-04-26 --- # Momentum and Optimization (λͺ¨λ©˜ν…€κ³Ό μ΅œμ ν™”) ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "기울기의 κ΄€μ„±(Velocity)을 μ΄μš©ν•˜μ—¬ ν‰νƒ„ν•œ 길은 λΉ λ₯΄κ²Œ μ£ΌνŒŒν•˜κ³ , 웅덩이(Local Minima)λŠ” κ³Όκ°ν•˜κ²Œ λ›°μ–΄λ„˜μ–΄λΌ" β€” 경사 ν•˜κ°•λ²•μ— 물리적인 'μš΄λ™λŸ‰' κ°œλ…μ„ λ„μž…ν•˜μ—¬, 이전 μ—…λ°μ΄νŠΈμ˜ λ°©ν–₯κ³Ό 속도λ₯Ό ν˜„μž¬ ν•™μŠ΅μ— λ°˜μ˜ν•¨μœΌλ‘œμ¨ 수렴 속도λ₯Ό 높이고 μ΅œμ ν™”μ˜ μ•ˆμ •μ„±μ„ ν™•λ³΄ν•˜λŠ” 기법. ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) - **μΆ”μΆœλœ νŒ¨ν„΄:** "Accumulated Velocity and Smoothing" β€” λ§€ μˆœκ°„μ˜ 기울기 변화에 일일이 λ°˜μ‘ν•˜μ—¬ μ§„λ™ν•˜λŠ” λŒ€μ‹ , 과거의 이동 ꢀ적을 λˆ„μ ν•˜μ—¬ μ§„ν–‰ λ°©ν–₯의 일관성을 μœ μ§€ν•¨μœΌλ‘œμ¨ μ§€κ·Έμž¬κ·Έ ν˜„μƒμ„ μ–΅μ œν•˜κ³  μ „μ—­ μ΅œμ ν•΄λ₯Ό ν–₯ν•΄ μ „μ§„ν•˜λŠ” μ΅œμ ν™” νŒ¨ν„΄. - **μ£Όμš” 기법:** - **Standard Momentum:** κ³Όκ±° 기울기의 가쀑 평균을 μ‚¬μš©ν•˜μ—¬ ν˜„μž¬ λ°©ν–₯ κ²°μ •. - **Nesterov Accelerated Gradient (NAG):** λ‹€μŒ λ‹¨κ³„μ˜ μ˜ˆμƒ μ§€μ μ—μ„œ 기울기λ₯Ό κ³„μ‚°ν•˜μ—¬ '미리 보고' μ‘°μ ˆν•˜λŠ” 더 μ˜λ¦¬ν•œ 방식. - **Adam (Adaptive Moment Estimation):** λͺ¨λ©˜ν…€κ³Ό RMSProp(μ μ‘ν˜• ν•™μŠ΅λ₯ )을 κ²°ν•©ν•˜μ—¬ ν˜„μž¬ κ°€μž₯ 널리 μ“°μ΄λŠ” ν‘œμ€€ μ΅œμ ν™” μ•Œκ³ λ¦¬μ¦˜. - **의의:** λ”₯λŸ¬λ‹ λͺ¨λΈμ˜ λ³΅μž‘ν•œ 손싀 ν•¨μˆ˜ κ³‘λ©΄μ—μ„œ μ•ˆμž₯점(Saddle Point)μ΄λ‚˜ μ§€μ—­ μ΅œμ ν•΄μ— κ°‡νžˆλŠ” 문제λ₯Ό 물리적 μ›λ¦¬λ‘œ 해결함. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌:** λͺ¨λ©˜ν…€μ΄ 항상 λΉ λ₯΄λ‹€λŠ” λ―ΏμŒμ—μ„œ λ²—μ–΄λ‚˜, κ³Όλ„ν•œ 관성이 였히렀 μ΅œμ μ μ„ μ§€λ‚˜μ³ λ²„λ¦¬λŠ”(Overshooting) 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•œ '감쇠(Damping)'와 'μ μ‘ν˜• 쑰절'의 μ€‘μš”μ„±μ΄ ν˜„λŒ€ μ΅œμ ν™” 이둠의 핡심이 됨. - **μ •μ±… λ³€ν™”:** Antigravity ν”„λ‘œμ νŠΈλŠ” κ±°λŒ€ μ–Έμ–΄ λͺ¨λΈμ˜ κ°€μ€‘μΉ˜ μ—…λ°μ΄νŠΈ μ‹œ, μ•ˆμ •μ μΈ 수렴과 μΌλ°˜ν™” μ„±λŠ₯을 κ·ΉλŒ€ν™”ν•˜κΈ° μœ„ν•΄ AdamW(κ°€μ€‘μΉ˜ 감쇠가 ν¬ν•¨λœ Adam)와 μ μ ˆν•œ λͺ¨λ©˜ν…€ κ³„μˆ˜(0.9)λ₯Ό κΈ°λ³Έκ°’μœΌλ‘œ μ‚¬μš©ν•¨. ## πŸ”— 지식 μ—°κ²° (Graph) - Gradient-Descent-Foundations, [[Hyperparameter-Optimization|Hyperparameter-Optimization]], [[Global-vs-Local-Optima|Global-vs-Local-Optima]], Deep-Learning-Foundations - **Raw Source:** 10_Wiki/Topics/AI/Momentum-and-Optimization.md