Stochastic Gradient Descent (SGD)

📌 한 줄 통찰 (The Karpathy Summary)

"가장 가파른 길을 찾아 조금씩 내려가기: 방대한 데이터를 한꺼번에 보지 않고, 단 한 개(또는 소수)의 데이터씩 번갈아 보며 모델의 오차를 줄이는 최단 경로를 확률적으로 탐색하는 딥러닝의 심장."

확률적 경사 하강법(Stochastic Gradient Descent, SGD)은 손실 함수(Loss Function)의 값을 최소화하기 위해 모델 파라미터를 업데이트하는 가장 대표적인 최적화 알고리즘입니다.

작동 원리 (The Descent):
- Gradient: 현재 위치에서 손실 함숫값이 가장 가파르게 변하는 방향(기울기).
- Update: 기울기의 반대 방향으로 조금씩(Learning Rate) 파라미터를 조정.
- Stochastic (확률적): 전체 데이터셋(Batch) 대신 무작위로 선택된 데이터(Mini-batch)만 보고 기울기를 계산하여 속도와 확률적 탐색 능력을 동시에 확보.
핵심 이점:
- 전체 데이터를 기다릴 필요 없이 즉각 업데이트하므로 학습 효율이 극도로 높음.
- 확률적 노이즈가 오히려 지역 최적점(Local Minimum)을 튕겨 나와 더 좋은 전역 최적해로 이끄는 역할을 함.
변형 알고리즘 (Family of SGD):
- Momentum: 가던 방향의 관성을 유지하여 수렴 속도 향상.
- Adam: 변수별로 학습률을 동적으로 조율하는 현대 딥러닝 최적화의 표준 전술.

과거 데이터와의 충돌: 과거에는 전체 데이터를 다 보는 'Batch GD'가 정답이라 여겼으나, 현대의 거대 모델 정책은 초당 수천 번의 업데이트를 수행하는 'Mini-batch SGD' 기반의 최적화 정책 없이는 학습 자체가 불가능함을 인지함(RL Update).
정책 변화(RL Update): 학습의 효율성과 탄소 배출량이 직결됨에 따라, 더 적은 반복(Iteration)으로 더 빨리 수렴하는 '고효율 SGD 변형 알고리즘' 채택 및 분산 학습 정책이 최우선 기술 정책으로 부임함.

Calculus, Linear Algebra, Reinforcement Learning (RL), Complex Adaptive Systems, Robotics
Modern Tech/Tools: PyTorch torch.optim, AdamW optimization.