2.5 KiB
2.5 KiB
id, category, confidence_score, tags, last_reinforced
| id | category | confidence_score | tags | last_reinforced | |||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| SGD-001 | Unified | 1.0 |
|
2026-04-26 |
stochastic gradient descent (SGD, 확률적 경사 하강법)
📌 한 줄 통찰 (The Karpathy Summary)
"전체를 다 보지 말고, 한 걸음씩 빠르게 나아가라" — 전체 데이터를 한꺼번에 계산하는 대신, 데이터 중 일부(Mini-batch)만 사용하여 오차의 기울기를 계산하고 빠르게 가중치를 업데이트하는 최적화 알고리즘.
📖 구조화된 지식 (Synthesized Content)
- 추출된 패턴: 전체 데이터셋에 대한 경사(Gradient) 대신 확률적으로 샘플링된 일부의 경사를 활용하여 연산 속도를 높이고, 그 과정에서의 노이즈를 통해 지역 최적해(Local Optima)를 탈출하는 효율적 탐색 패턴.
- 세부 내용:
- Iterative Update: 매 단계마다 작은 보폭(Learning Rate)으로 손실 함수의 값이 낮아지는 방향으로 이동.
- Efficiency: 방대한 양의 데이터를 다루는 딥러닝 환경에서 메모리 한계를 극복하고 실시간 학습 가능하게 함.
- Stochasticity (확률성): 일부 데이터만 보기 때문에 경로가 불안정(Zig-zag)해 보일 수 있으나, 오히려 이 특성이 좁은 골짜기(Local Optima)에 갇히지 않게 도와줌.
- Variants: 속도 조절을 위한 Momentum, 파라미터별 학습률을 조절하는 AdaGrad, RMSProp, 그리고 현대의 표준인 Adam으로 발전.
⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- 과거 데이터와의 충돌: 모든 데이터를 봐야 정확하다고 믿었던 배치 학습 방식에서, 적절한 노이즈가 섞인 '확률적' 방식이 실제로는 대규모 인공신경망 학습에 훨씬 유리함이 증명됨.
- 정책 변화: Antigravity 프로젝트의 로컬 모델 파인튜닝 시, 하드웨어 자원 사용량을 최적화하기 위해 적절한 미니 배치 사이즈와 AdamW 옵티마이저가 적용된 SGD 계열 알고리즘을 사용함.
🔗 지식 연결 (Graph)
- Gradient-Descent, Optimization, AdamW-Optimizer, Machine-Learning-Lifecycle
- Raw Source: 10_Wiki/Topics/AI/Stochastic-Gradient-Descent-SGD.md