Files
2nd/10_Wiki/Topics_Blog/Stochastic-Gradient-Descent-SGD.md
T

2.4 KiB

id, category, confidence_score, tags, last_reinforced
id category confidence_score tags last_reinforced
SGD-001 10_Wiki/💡 Topics/AI 1.0
machine-learning
optimization
calculus
deep-learning
gradient-descent
2026-04-26

Stochastic Gradient Descent (SGD, 확률적 경사 하강법)

📌 한 줄 통찰 (The Karpathy Summary)

"전체를 다 보지 말고, 한 걸음씩 빠르게 나아가라" — 전체 데이터를 한꺼번에 계산하는 대신, 데이터 중 일부(Mini-batch)만 사용하여 오차의 기울기를 계산하고 빠르게 가중치를 업데이트하는 최적화 알고리즘.

📖 구조화된 지식 (Synthesized Content)

  • 추출된 패턴: 전체 데이터셋에 대한 경사(Gradient) 대신 확률적으로 샘플링된 일부의 경사를 활용하여 연산 속도를 높이고, 그 과정에서의 노이즈를 통해 지역 최적해(Local Optima)를 탈출하는 효율적 탐색 패턴.
  • 세부 내용:
    • Iterative Update: 매 단계마다 작은 보폭(Learning Rate)으로 손실 함수의 값이 낮아지는 방향으로 이동.
    • Efficiency: 방대한 양의 데이터를 다루는 딥러닝 환경에서 메모리 한계를 극복하고 실시간 학습 가능하게 함.
    • Stochasticity (확률성): 일부 데이터만 보기 때문에 경로가 불안정(Zig-zag)해 보일 수 있으나, 오히려 이 특성이 좁은 골짜기(Local Optima)에 갇히지 않게 도와줌.
    • Variants: 속도 조절을 위한 Momentum, 파라미터별 학습률을 조절하는 AdaGrad, RMSProp, 그리고 현대의 표준인 Adam으로 발전.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

  • 과거 데이터와의 충돌: 모든 데이터를 봐야 정확하다고 믿었던 배치 학습 방식에서, 적절한 노이즈가 섞인 '확률적' 방식이 실제로는 대규모 인공신경망 학습에 훨씬 유리함이 증명됨.
  • 정책 변화: Antigravity 프로젝트의 로컬 모델 파인튜닝 시, 하드웨어 자원 사용량을 최적화하기 위해 적절한 미니 배치 사이즈와 AdamW 옵티마이저가 적용된 SGD 계열 알고리즘을 사용함.

🔗 지식 연결 (Graph)