Stochastic Gradient Descent (SGD, 확률적 경사 하강법)

📌 한 줄 통찰 (The Karpathy Summary)

"전체를 다 보지 말고, 한 걸음씩 빠르게 나아가라" — 전체 데이터를 한꺼번에 계산하는 대신, 데이터 중 일부(Mini-batch)만 사용하여 오차의 기울기를 계산하고 빠르게 가중치를 업데이트하는 최적화 알고리즘.

추출된 패턴: 전체 데이터셋에 대한 경사(Gradient) 대신 확률적으로 샘플링된 일부의 경사를 활용하여 연산 속도를 높이고, 그 과정에서의 노이즈를 통해 지역 최적해(Local Optima)를 탈출하는 효율적 탐색 패턴.
세부 내용:
- Iterative Update: 매 단계마다 작은 보폭(Learning Rate)으로 손실 함수의 값이 낮아지는 방향으로 이동.
- Efficiency: 방대한 양의 데이터를 다루는 딥러닝 환경에서 메모리 한계를 극복하고 실시간 학습 가능하게 함.
- Stochasticity (확률성): 일부 데이터만 보기 때문에 경로가 불안정(Zig-zag)해 보일 수 있으나, 오히려 이 특성이 좁은 골짜기(Local Optima)에 갇히지 않게 도와줌.
- Variants: 속도 조절을 위한 Momentum, 파라미터별 학습률을 조절하는 AdaGrad, RMSProp, 그리고 현대의 표준인 Adam으로 발전.

과거 데이터와의 충돌: 모든 데이터를 봐야 정확하다고 믿었던 배치 학습 방식에서, 적절한 노이즈가 섞인 '확률적' 방식이 실제로는 대규모 인공신경망 학습에 훨씬 유리함이 증명됨.
정책 변화: Antigravity 프로젝트의 로컬 모델 파인튜닝 시, 하드웨어 자원 사용량을 최적화하기 위해 적절한 미니 배치 사이즈와 AdamW 옵티마이저가 적용된 SGD 계열 알고리즘을 사용함.