---
id: MATH-OPT-SGD-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 1.0
tags: [ai, machine-learning, optimization, sgd, stochastic-gradient-descent, deep-learning, loss-function]
last_reinforced: 2026-04-26
---

# Stochastic Gradient Descent (SGD, 확률적 경사 하강법)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "전체 데이터를 기다리는 게으름을 버리고, 단 하나의 샘플(Stochastic)이 주는 즉각적인 힌트로 끊임없이 방향을 수정하며 최적의 골짜기로 돌진하라" — 손실 함수의 기울기(Gradient)를 구할 때 전체 데이터셋이 아닌 무작위로 선택된 일부 데이터를 사용하여 가중치를 업데이트하는 최적화 알고리즘.

## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** "Iterative Error Correction with Noise Injection" — 매 업데이트마다 적은 연산량으로 빠르게 길을 찾고, 확률적인 노이즈를 활용해 지역 최적해(Local Minima)의 함정을 뛰어넘어 전역 최적해 근처로 수렴해 나가는 패턴.
- **주요 특징:**
    - **Efficiency:** 방대한 빅데이터 환경에서도 전체 데이터를 다 읽을 필요 없이 실시간 학습 가능.
    - **Escaping Local Optima:** 무작위 샘플링으로 인한 경로의 요동(Fluctuation)이 오히려 좁은 구덩이를 탈출하게 돕는 동력이 됨.
    - **Learning Rate Decay:** 수렴 지점 근처에서 지나치게 진동하는 것을 막기 위해 학습률을 서서히 낮추는 전략 병행.
- **의의:** 거의 모든 현대 딥러닝 아키텍처(CNN, Transformer 등)의 가중치를 결정짓는 실질적인 심장이며, Adam, RMSProp 등 수많은 고도화된 옵티마이저의 모태가 됨.

## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 한 번에 한 개씩만 쓰던 순수 SGD(Pure SGD)에서 벗어나, 이제는 하드웨어 가속(GPU)의 효율성을 극대화하기 위해 수십~수백 개의 묶음 단위로 처리하는 '미니 배치(Mini-batch) SGD'가 실전의 표준으로 정착됨.
- **정책 변화:** Antigravity 프로젝트는 에이전트의 로컬 미세 조정(Fine-tuning) 및 지식 가중치 업데이트 시, 연산 자원 점유율을 최소화하면서도 빠른 수렴이 보장된 최적화된 SGD 파이프라인을 가동함.

## 🔗 지식 연결 (Graph)
- Deep-Learning-Foundations, [[Optimization-Algorithms]], Momentum-in-Optimization, Backpropagation-Fundamentals
- **Raw Source:** 10_Wiki/Topics/AI/Stochastic-Gradient-Descent.md