[G1-Sync] Manual knowledge update
This commit is contained in:
@@ -2,118 +2,173 @@
|
||||
id: wiki-2026-0508-stochastic-gradient-descent
|
||||
title: Stochastic Gradient Descent
|
||||
category: 10_Wiki/Topics
|
||||
status: needs_review
|
||||
status: verified
|
||||
canonical_id: self
|
||||
aliases: []
|
||||
aliases: [SGD, Mini-batch SGD, Stochastic Gradient Descent]
|
||||
duplicate_of: none
|
||||
source_trust_level: A
|
||||
confidence_score: 0.92
|
||||
tags: [auto-consolidated, technical-documentation]
|
||||
confidence_score: 0.95
|
||||
verification_status: applied
|
||||
tags: [machine-learning, optimization, deep-learning, gradient-descent]
|
||||
raw_sources: []
|
||||
last_reinforced: 2026-05-08
|
||||
last_reinforced: 2026-05-10
|
||||
github_commit: pending
|
||||
inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08)
|
||||
tech_stack:
|
||||
language: unspecified
|
||||
framework: unspecified
|
||||
language: python
|
||||
framework: pytorch
|
||||
---
|
||||
|
||||
# [[stochastic gradient descent|stochastic gradient descent]] (SGD, 확률적 경사 하강법)
|
||||
# Stochastic Gradient Descent (SGD)
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "전체 데이터를 기다리는 게으름을 버리고, 단 하나의 샘플(Stochastic)이 주는 즉각적인 힌트로 끊임없이 방향을 수정하며 최적의 골짜기로 돌진하라" — 손실 함수의 기울기(Gradient)를 구할 때 전체 데이터셋이 아닌 무작위로 선택된 일부 데이터를 사용하여 가중치를 업데이트하는 최적화 알고리즘.
|
||||
## 매 한 줄
|
||||
> **"매 한 sample (or mini-batch) 에 대한 gradient 로 매 step — 매 noisy 하지만 매 cheap, 매 escape from local minima"**. Robbins & Monro (1951) 의 stochastic approximation 의 후예. 2026 deep learning 의 foundation — 매 SGD+momentum, AdamW, Lion 가 매 default.
|
||||
|
||||
---
|
||||
## 매 핵심
|
||||
|
||||
> "가장 가파른 길을 찾아 조금씩 내려가기: 방대한 데이터를 한꺼번에 보지 않고, 단 한 개(또는 소수)의 데이터씩 번갈아 보며 모델의 오차를 줄이는 최단 경로를 확률적으로 탐색하는 딥러닝의 심장."
|
||||
### 매 vs full-batch
|
||||
- **Batch GD**: 매 entire dataset gradient — 매 expensive, deterministic.
|
||||
- **SGD (online)**: 매 single sample — 매 noisy, fast.
|
||||
- **Mini-batch SGD**: 매 32–4096 samples — 매 modern default. 매 GPU 의 vectorize.
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
- **추출된 패턴:** "Iterative Error Correction with [[Noise|Noise]] Injection" — 매 업데이트마다 적은 연산량으로 빠르게 길을 찾고, 확률적인 노이즈를 활용해 지역 최적해(Local Minima)의 함정을 뛰어넘어 전역 최적해 근처로 수렴해 나가는 패턴.
|
||||
- **주요 특징:**
|
||||
- **[[Efficiency|Efficiency]]:** 방대한 빅데이터 환경에서도 전체 데이터를 다 읽을 필요 없이 실시간 학습 가능.
|
||||
- **Escaping Local Optima:** 무작위 샘플링으로 인한 경로의 요동(Fluctuation)이 오히려 좁은 구덩이를 탈출하게 돕는 동력이 됨.
|
||||
- **Learning Rate Decay:** 수렴 지점 근처에서 지나치게 진동하는 것을 막기 위해 학습률을 서서히 낮추는 전략 병행.
|
||||
- **의의:** 거의 모든 현대 딥러닝 아키텍처(CNN, Transformer 등)의 가중치를 결정짓는 실질적인 심장이며, Adam, RMSProp 등 수많은 고도화된 옵티마이저의 모태가 됨.
|
||||
### 매 update rule
|
||||
- Vanilla SGD: `θ ← θ − η ∇L(θ; x_i, y_i)`.
|
||||
- Momentum: `v ← μv + ∇L; θ ← θ − ηv`.
|
||||
- Nesterov: 매 lookahead momentum.
|
||||
|
||||
---
|
||||
### 매 modern variants
|
||||
- **AdamW** (Loshchilov 2019): adaptive lr + decoupled weight decay — 매 LLM/transformer default.
|
||||
- **Lion** (Chen 2023): sign-based momentum — 매 less memory, comparable.
|
||||
- **Sophia** (2023): second-order — 매 LLM pretrain.
|
||||
- **Muon** (Jordan 2024): orthogonalized momentum — 매 emerging.
|
||||
|
||||
확률적 경사 하강법(Stochastic Gradient Descent, SGD)은 손실 함수(Loss Function)의 값을 최소화하기 위해 모델 파라미터를 업데이트하는 가장 대표적인 최적화 알고리즘입니다.
|
||||
### 매 응용
|
||||
1. Neural network training (all of deep learning).
|
||||
2. Logistic regression, linear regression at scale.
|
||||
3. Online learning / streaming data.
|
||||
|
||||
1. **작동 원리 (The Descent)**:
|
||||
* **Gradient**: 현재 위치에서 손실 함숫값이 가장 가파르게 변하는 방향(기울기).
|
||||
* **Update**: 기울기의 반대 방향으로 조금씩($Learning Rate$) 파라미터를 조정.
|
||||
* **Stochastic (확률적)**: 전체 데이터셋(Batch) 대신 무작위로 선택된 데이터(Mini-batch)만 보고 기울기를 계산하여 속도와 확률적 탐색 능력을 동시에 확보.
|
||||
2. **핵심 이점**:
|
||||
* 전체 데이터를 기다릴 필요 없이 즉각 업데이트하므로 학습 효율이 극도로 높음.
|
||||
* 확률적 노이즈가 오히려 지역 최적점(Local Minimum)을 튕겨 나와 더 좋은 전역 최적해로 이끄는 역할을 함.
|
||||
3. **변형 알고리즘 (Family of SGD)**:
|
||||
* **Momentum**: 가던 방향의 관성을 유지하여 수렴 속도 향상.
|
||||
* **Adam**: 변수별로 학습률을 동적으로 조율하는 현대 딥러닝 최적화의 표준 전술.
|
||||
## 💻 패턴
|
||||
|
||||
## ⚠️ 모순 및 업데이트 (Contradictions & Updates)
|
||||
- **과거 데이터와의 충돌:** 한 번에 한 개씩만 쓰던 순수 SGD(Pure SGD)에서 벗어나, 이제는 하드웨어 가속(GPU)의 효율성을 극대화하기 위해 수십~수백 개의 묶음 단위로 처리하는 '미니 배치(Mini-batch) SGD'가 실전의 표준으로 정착됨.
|
||||
- **정책 변화:** Antigravity 프로젝트는 에이전트의 로컬 미세 조정([[Fine-tuning|Fine-tuning]]) 및 지식 가중치 업데이트 시, 연산 자원 점유율을 최소화하면서도 빠른 수렴이 보장된 최적화된 SGD 파이프라인을 가동함.
|
||||
### PyTorch 2.5 — SGD with momentum
|
||||
```python
|
||||
import torch
|
||||
from torch import nn, optim
|
||||
|
||||
---
|
||||
model = nn.Linear(784, 10)
|
||||
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9, nesterov=True)
|
||||
loss_fn = nn.CrossEntropyLoss()
|
||||
|
||||
- **과거 데이터와의 충돌**: 과거에는 전체 데이터를 다 보는 'Batch GD'가 정답이라 여겼으나, 현대의 거대 모델 정책은 초당 수천 번의 업데이트를 수행하는 'Mini-batch SGD' 기반의 최적화 정책 없이는 학습 자체가 불가능함을 인지함(RL Update).
|
||||
- **정책 변화(RL Update)**: 학습의 효율성과 탄소 배출량이 직결됨에 따라, 더 적은 반복([[Iteration|Iteration]])으로 더 빨리 수렴하는 '고효율 SGD 변형 알고리즘' 채택 및 분산 학습 정책이 최우선 기술 정책으로 부임함.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
- Deep-Learning-Foundations, [[Optimization-Algorithms|Optimization-Algorithms]], Momentum-in-Optimization, [[Backpropagation|Backpropagation]]-Fundamentals
|
||||
- **Raw Source:** 10_Wiki/Topics/AI/Stochastic-Gradient-Descent.md
|
||||
|
||||
---
|
||||
|
||||
- Calculus, Linear Algebra, [[Reinforcement Learning (RL)|Reinforcement Learning (RL)]], Complex Adaptive[[_system|system]]s, [[Robotics|Robotics]]
|
||||
- **Modern Tech/Tools**: PyTorch torch.optim, AdamW optimization.
|
||||
---
|
||||
|
||||
## 🤖 LLM 활용 힌트 (How to Use This Knowledge)
|
||||
|
||||
**언제 이 지식을 쓰는가:**
|
||||
- *(TODO)*
|
||||
|
||||
**언제 쓰면 안 되는가:**
|
||||
- *(TODO)*
|
||||
|
||||
## 🧪 검증 상태 (Validation)
|
||||
|
||||
- **정보 상태:** needs_review
|
||||
- **출처 신뢰도:** A
|
||||
- **검토 이유:** *(P-Reinforce Phase 1 자동 정규화. 본문 검증 필요.)*
|
||||
|
||||
## 🧬 중복 검사 (Duplicate Check)
|
||||
|
||||
- **기존 유사 문서:** *(TODO: 인덱서 클러스터 리포트 참조)*
|
||||
- **처리 방식:** UPDATE (자동 정규화)
|
||||
- **처리 이유:** Phase 1 정규화 — 옛 템플릿/누락 필드 보강.
|
||||
|
||||
## 🕓 변경 이력 (Changelog)
|
||||
|
||||
| 날짜 | 변경 내용 | 처리 방식 | 신뢰도 |
|
||||
|------|-----------|-----------|--------|
|
||||
| 2026-05-08 | P-Reinforce Phase 1 정규화 (frontmatter + 헤더 표준화) | UPDATE | A |
|
||||
|
||||
## 💻 코드 패턴 (Code Patterns)
|
||||
|
||||
**패턴 1:** *(TODO: 이 프로젝트 컨벤션 반영한 구조 스켈레톤)*
|
||||
|
||||
```text
|
||||
# TODO
|
||||
for epoch in range(10):
|
||||
for x, y in dataloader:
|
||||
optimizer.zero_grad()
|
||||
loss = loss_fn(model(x), y)
|
||||
loss.backward()
|
||||
optimizer.step()
|
||||
```
|
||||
|
||||
## 🤔 의사결정 기준 (Decision Criteria)
|
||||
### AdamW (transformer default 2026)
|
||||
```python
|
||||
optimizer = optim.AdamW(
|
||||
model.parameters(),
|
||||
lr=3e-4,
|
||||
betas=(0.9, 0.95),
|
||||
weight_decay=0.1,
|
||||
fused=True, # 매 GPU fused kernel
|
||||
)
|
||||
```
|
||||
|
||||
**선택 A를 써야 할 때:**
|
||||
- *(TODO)*
|
||||
### Cosine LR schedule
|
||||
```python
|
||||
from torch.optim.lr_scheduler import CosineAnnealingLR
|
||||
scheduler = CosineAnnealingLR(optimizer, T_max=num_steps, eta_min=1e-6)
|
||||
for step in range(num_steps):
|
||||
train_step()
|
||||
optimizer.step()
|
||||
scheduler.step()
|
||||
```
|
||||
|
||||
**선택 B를 써야 할 때:**
|
||||
- *(TODO)*
|
||||
### Linear warmup + cosine decay (LLM standard)
|
||||
```python
|
||||
def lr_lambda(step):
|
||||
if step < warmup:
|
||||
return step / warmup
|
||||
progress = (step - warmup) / (total - warmup)
|
||||
return 0.5 * (1 + math.cos(math.pi * progress))
|
||||
scheduler = optim.lr_scheduler.LambdaLR(optimizer, lr_lambda)
|
||||
```
|
||||
|
||||
**기본값:**
|
||||
> *(TODO)*
|
||||
### Gradient clipping (stability)
|
||||
```python
|
||||
torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
|
||||
optimizer.step()
|
||||
```
|
||||
|
||||
## ❌ 안티패턴 (Anti-Patterns)
|
||||
### Mixed precision SGD (bf16, H100)
|
||||
```python
|
||||
scaler = torch.amp.GradScaler("cuda")
|
||||
with torch.autocast("cuda", dtype=torch.bfloat16):
|
||||
loss = loss_fn(model(x), y)
|
||||
scaler.scale(loss).backward()
|
||||
scaler.unscale_(optimizer)
|
||||
torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
|
||||
scaler.step(optimizer)
|
||||
scaler.update()
|
||||
```
|
||||
|
||||
- **[안티패턴]:** *(TODO: 무엇을 하면 안 되는가 + 이유 + 대신 무엇을)*
|
||||
### Pure NumPy SGD (linear regression)
|
||||
```python
|
||||
import numpy as np
|
||||
def sgd(X, y, lr=0.01, epochs=100, batch=32):
|
||||
w = np.zeros(X.shape[1])
|
||||
for _ in range(epochs):
|
||||
idx = np.random.permutation(len(X))
|
||||
for i in range(0, len(X), batch):
|
||||
b = idx[i:i+batch]
|
||||
grad = X[b].T @ (X[b] @ w - y[b]) / len(b)
|
||||
w -= lr * grad
|
||||
return w
|
||||
```
|
||||
|
||||
### Lion optimizer (2026 alt)
|
||||
```python
|
||||
# pip install lion-pytorch
|
||||
from lion_pytorch import Lion
|
||||
optimizer = Lion(model.parameters(), lr=1e-4, weight_decay=0.01)
|
||||
```
|
||||
|
||||
## 매 결정 기준
|
||||
| 상황 | Approach |
|
||||
|---|---|
|
||||
| Image classification (ResNet, ViT) | SGD + momentum + cosine |
|
||||
| LLM / Transformer training | AdamW + linear warmup + cosine |
|
||||
| Memory-constrained large model | Lion or 8-bit Adam (bitsandbytes) |
|
||||
| Convex optimization, theoretical guarantee | Vanilla SGD with decreasing lr |
|
||||
| Online streaming data | Mini-batch SGD, lr ~ 1/sqrt(t) |
|
||||
|
||||
**기본값**: 매 transformer/LLM → AdamW 3e-4 + warmup 1k steps + cosine. 매 CNN → SGD 0.1 + momentum 0.9 + cosine.
|
||||
|
||||
## 🔗 Graph
|
||||
- 부모: [[Gradient Descent]] · [[Optimization]]
|
||||
- 변형: [[Adam]] · [[AdamW]] · [[Lion Optimizer]] · [[Sophia Optimizer]] · [[Muon Optimizer]]
|
||||
- 응용: [[Deep Learning]] · [[Neural Network Training]] · [[LLM Pretraining]]
|
||||
- Adjacent: [[Learning Rate Schedule]] · [[Gradient Clipping]] · [[Backpropagation]]
|
||||
|
||||
## 🤖 LLM 활용
|
||||
**언제**: 매 model training의 default optimizer choice; debug convergence (loss spike, plateau).
|
||||
**언제 X**: 매 closed-form solution exists (small linear regression — use normal equation); 매 second-order necessary (small classical ML).
|
||||
|
||||
## ❌ 안티패턴
|
||||
- **lr too high**: 매 loss explosion / NaN. 매 warmup + clip.
|
||||
- **No weight decay**: 매 overfitting.
|
||||
- **Momentum with lr too high**: 매 oscillation.
|
||||
- **AdamW lr=1e-3 for LLM**: 매 too high — 1e-4 ~ 3e-4 가 매 standard.
|
||||
- **Batch size 1 on GPU**: 매 underutilization. 매 32+ 의 사용.
|
||||
|
||||
## 🧪 검증 / 중복
|
||||
- Verified (PyTorch docs 2.5; Goodfellow *Deep Learning* ch.8; Loshchilov AdamW 2019).
|
||||
- 신뢰도 A.
|
||||
|
||||
## 🕓 Changelog
|
||||
| 날짜 | 변경 |
|
||||
|---|---|
|
||||
| 2026-05-08 | Phase 1 |
|
||||
| 2026-05-10 | Manual cleanup — SGD + modern variants (AdamW, Lion, Muon) for 2026 |
|
||||
|
||||
Reference in New Issue
Block a user