--- id: P-REINFORCE-AUTO-SSGD-001 category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 0.99 tags: [auto-reinforced, machine-learning, optimization, sgd, gradient-descent, math-of-ai] last_reinforced: 2026-04-20 --- # Stochastic Gradient Descent (SGD) ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "κ°€μž₯ κ°€νŒŒλ₯Έ 길을 μ°Ύμ•„ μ‘°κΈˆμ”© λ‚΄λ €κ°€κΈ°: λ°©λŒ€ν•œ 데이터λ₯Ό ν•œκΊΌλ²ˆμ— 보지 μ•Šκ³ , 단 ν•œ 개(λ˜λŠ” μ†Œμˆ˜)의 데이터씩 λ²ˆκ°ˆμ•„ 보며 λͺ¨λΈμ˜ 였차λ₯Ό μ€„μ΄λŠ” μ΅œλ‹¨ 경둜λ₯Ό ν™•λ₯ μ μœΌλ‘œ νƒμƒ‰ν•˜λŠ” λ”₯λŸ¬λ‹μ˜ 심μž₯." ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) ν™•λ₯ μ  경사 ν•˜κ°•λ²•(Stochastic Gradient Descent, SGD)은 손싀 ν•¨μˆ˜(Loss Function)의 값을 μ΅œμ†Œν™”ν•˜κΈ° μœ„ν•΄ λͺ¨λΈ νŒŒλΌλ―Έν„°λ₯Ό μ—…λ°μ΄νŠΈν•˜λŠ” κ°€μž₯ λŒ€ν‘œμ μΈ μ΅œμ ν™” μ•Œκ³ λ¦¬μ¦˜μž…λ‹ˆλ‹€. 1. **μž‘λ™ 원리 (The Descent)**: * **Gradient**: ν˜„μž¬ μœ„μΉ˜μ—μ„œ 손싀 ν•¨μˆ«κ°’μ΄ κ°€μž₯ κ°€νŒŒλ₯΄κ²Œ λ³€ν•˜λŠ” λ°©ν–₯(기울기). * **Update**: 기울기의 λ°˜λŒ€ λ°©ν–₯으둜 μ‘°κΈˆμ”©($Learning Rate$) νŒŒλΌλ―Έν„°λ₯Ό μ‘°μ •. * **Stochastic (ν™•λ₯ μ )**: 전체 데이터셋(Batch) λŒ€μ‹  λ¬΄μž‘μœ„λ‘œ μ„ νƒλœ 데이터(Mini-batch)만 보고 기울기λ₯Ό κ³„μ‚°ν•˜μ—¬ 속도와 ν™•λ₯ μ  탐색 λŠ₯λ ₯을 λ™μ‹œμ— 확보. 2. **핡심 이점**: * 전체 데이터λ₯Ό 기닀릴 ν•„μš” 없이 즉각 μ—…λ°μ΄νŠΈν•˜λ―€λ‘œ ν•™μŠ΅ 효율이 κ·Ήλ„λ‘œ λ†’μŒ. * ν™•λ₯ μ  λ…Έμ΄μ¦ˆκ°€ 였히렀 μ§€μ—­ 졜적점(Local Minimum)을 νŠ•κ²¨ λ‚˜μ™€ 더 쒋은 μ „μ—­ μ΅œμ ν•΄λ‘œ μ΄λ„λŠ” 역할을 함. 3. **λ³€ν˜• μ•Œκ³ λ¦¬μ¦˜ (Family of SGD)**: * **Momentum**: κ°€λ˜ λ°©ν–₯의 관성을 μœ μ§€ν•˜μ—¬ 수렴 속도 ν–₯상. * **Adam**: λ³€μˆ˜λ³„λ‘œ ν•™μŠ΅λ₯ μ„ λ™μ μœΌλ‘œ μ‘°μœ¨ν•˜λŠ” ν˜„λŒ€ λ”₯λŸ¬λ‹ μ΅œμ ν™”μ˜ ν‘œμ€€ μ „μˆ . ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌**: κ³Όκ±°μ—λŠ” 전체 데이터λ₯Ό λ‹€ λ³΄λŠ” 'Batch GD'κ°€ 정닡이라 μ—¬κ²ΌμœΌλ‚˜, ν˜„λŒ€μ˜ κ±°λŒ€ λͺ¨λΈ 정책은 μ΄ˆλ‹Ή 수천 번의 μ—…λ°μ΄νŠΈλ₯Ό μˆ˜ν–‰ν•˜λŠ” 'Mini-batch SGD' 기반의 μ΅œμ ν™” μ •μ±… μ—†μ΄λŠ” ν•™μŠ΅ μžμ²΄κ°€ λΆˆκ°€λŠ₯함을 인지함(RL Update). - **μ •μ±… λ³€ν™”(RL Update)**: ν•™μŠ΅μ˜ νš¨μœ¨μ„±κ³Ό νƒ„μ†Œ λ°°μΆœλŸ‰μ΄ 직결됨에 따라, 더 적은 반볡(Iteration)으둜 더 빨리 μˆ˜λ ΄ν•˜λŠ” '고효율 SGD λ³€ν˜• μ•Œκ³ λ¦¬μ¦˜' 채택 및 λΆ„μ‚° ν•™μŠ΅ 정책이 μ΅œμš°μ„  기술 μ •μ±…μœΌλ‘œ λΆ€μž„ν•¨. ## πŸ”— 지식 μ—°κ²° (Graph) - Calculus, Linear Algebra, [[Reinforcement Learning (RL)|Reinforcement Learning (RL)]], Complex Adaptive Systems, [[Robotics|Robotics]] - **Modern Tech/Tools**: PyTorch torch.optim, AdamW optimization. ---