2nd/10_Wiki/Topics_Blog/stochastic gradient descent.md

---
id: P-REINFORCE-AUTO-SSGD-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 0.99
tags: [auto-reinforced, machine-learning, optimization, sgd, gradient-descent, math-of-ai]
last_reinforced: 2026-04-20
---

# Stochastic Gradient Descent (SGD)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "가장 가파른 길을 찾아 조금씩 내려가기: 방대한 데이터를 한꺼번에 보지 않고, 단 한 개(또는 소수)의 데이터씩 번갈아 보며 모델의 오차를 줄이는 최단 경로를 확률적으로 탐색하는 딥러닝의 심장."

## 📖 구조화된 지식 (Synthesized Content)
확률적 경사 하강법(Stochastic Gradient Descent, SGD)은 손실 함수(Loss Function)의 값을 최소화하기 위해 모델 파라미터를 업데이트하는 가장 대표적인 최적화 알고리즘입니다.

1.  **작동 원리 (The Descent)**:
    *   **Gradient**: 현재 위치에서 손실 함숫값이 가장 가파르게 변하는 방향(기울기).
    *   **Update**: 기울기의 반대 방향으로 조금씩($Learning Rate$) 파라미터를 조정.
    *   **Stochastic (확률적)**: 전체 데이터셋(Batch) 대신 무작위로 선택된 데이터(Mini-batch)만 보고 기울기를 계산하여 속도와 확률적 탐색 능력을 동시에 확보.
2.  **핵심 이점**:
    *   전체 데이터를 기다릴 필요 없이 즉각 업데이트하므로 학습 효율이 극도로 높음.
    *   확률적 노이즈가 오히려 지역 최적점(Local Minimum)을 튕겨 나와 더 좋은 전역 최적해로 이끄는 역할을 함.
3.  **변형 알고리즘 (Family of SGD)**:
    *   **Momentum**: 가던 방향의 관성을 유지하여 수렴 속도 향상.
    *   **Adam**: 변수별로 학습률을 동적으로 조율하는 현대 딥러닝 최적화의 표준 전술.

## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌**: 과거에는 전체 데이터를 다 보는 'Batch GD'가 정답이라 여겼으나, 현대의 거대 모델 정책은 초당 수천 번의 업데이트를 수행하는 'Mini-batch SGD' 기반의 최적화 정책 없이는 학습 자체가 불가능함을 인지함(RL Update).
- **정책 변화(RL Update)**: 학습의 효율성과 탄소 배출량이 직결됨에 따라, 더 적은 반복(Iteration)으로 더 빨리 수렴하는 '고효율 SGD 변형 알고리즘' 채택 및 분산 학습 정책이 최우선 기술 정책으로 부임함.

## 🔗 지식 연결 (Graph)
- Calculus, Linear Algebra, [[Reinforcement Learning (RL)|Reinforcement Learning (RL)]], Complex Adaptive Systems, [[Robotics|Robotics]]
- **Modern Tech/Tools**: PyTorch torch.optim, AdamW optimization.
---