---
id: SGD-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 1.0
tags: [machine-learning, optimization, calculus, deep-learning, gradient-descent]
last_reinforced: 2026-04-26
---

# Stochastic Gradient Descent (SGD, 확률적 경사 하강법)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "전체를 다 보지 말고, 한 걸음씩 빠르게 나아가라" — 전체 데이터를 한꺼번에 계산하는 대신, 데이터 중 일부(Mini-batch)만 사용하여 오차의 기울기를 계산하고 빠르게 가중치를 업데이트하는 최적화 알고리즘.

## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** 전체 데이터셋에 대한 경사(Gradient) 대신 확률적으로 샘플링된 일부의 경사를 활용하여 연산 속도를 높이고, 그 과정에서의 노이즈를 통해 지역 최적해(Local Optima)를 탈출하는 효율적 탐색 패턴.
- **세부 내용:**
    - **Iterative Update:** 매 단계마다 작은 보폭(Learning Rate)으로 손실 함수의 값이 낮아지는 방향으로 이동.
    - **Efficiency:** 방대한 양의 데이터를 다루는 딥러닝 환경에서 메모리 한계를 극복하고 실시간 학습 가능하게 함.
    - **Stochasticity (확률성):** 일부 데이터만 보기 때문에 경로가 불안정(Zig-zag)해 보일 수 있으나, 오히려 이 특성이 좁은 골짜기(Local Optima)에 갇히지 않게 도와줌.
    - **Variants:** 속도 조절을 위한 Momentum, 파라미터별 학습률을 조절하는 AdaGrad, RMSProp, 그리고 현대의 표준인 Adam으로 발전.

## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 모든 데이터를 봐야 정확하다고 믿었던 배치 학습 방식에서, 적절한 노이즈가 섞인 '확률적' 방식이 실제로는 대규모 인공신경망 학습에 훨씬 유리함이 증명됨.
- **정책 변화:** Antigravity 프로젝트의 로컬 모델 파인튜닝 시, 하드웨어 자원 사용량을 최적화하기 위해 적절한 미니 배치 사이즈와 AdamW 옵티마이저가 적용된 SGD 계열 알고리즘을 사용함.

## 🔗 지식 연결 (Graph)
- [[Gradient-Descent|Gradient-Descent]], [[Optimization|Optimization]], AdamW-Optimizer, [[Machine-Learning-Lifecycle|Machine-Learning-Lifecycle]]
- **Raw Source:** 10_Wiki/Topics/AI/Stochastic-Gradient-Descent-SGD.md