Files
2nd/10_Wiki/Topics/Architecture/Stochastic-Gradient-Descent.md
T

6.4 KiB

id, title, category, status, canonical_id, aliases, duplicate_of, source_trust_level, confidence_score, tags, raw_sources, last_reinforced, github_commit, inferred_by, tech_stack
id title category status canonical_id aliases duplicate_of source_trust_level confidence_score tags raw_sources last_reinforced github_commit inferred_by tech_stack
wiki-2026-0508-stochastic-gradient-descent Stochastic Gradient Descent 10_Wiki/Topics needs_review self
none A 0.92
auto-consolidated
technical-documentation
2026-05-08 pending Claude Opus 4.7 (auto-normalize 2026-05-08)
language framework
unspecified unspecified

stochastic gradient descent (SGD, 확률적 경사 하강법)

📌 한 줄 통찰 (The Karpathy Summary)

"전체 데이터를 기다리는 게으름을 버리고, 단 하나의 샘플(Stochastic)이 주는 즉각적인 힌트로 끊임없이 방향을 수정하며 최적의 골짜기로 돌진하라" — 손실 함수의 기울기(Gradient)를 구할 때 전체 데이터셋이 아닌 무작위로 선택된 일부 데이터를 사용하여 가중치를 업데이트하는 최적화 알고리즘.


"가장 가파른 길을 찾아 조금씩 내려가기: 방대한 데이터를 한꺼번에 보지 않고, 단 한 개(또는 소수)의 데이터씩 번갈아 보며 모델의 오차를 줄이는 최단 경로를 확률적으로 탐색하는 딥러닝의 심장."

📖 구조화된 지식 (Synthesized Content)

  • 추출된 패턴: "Iterative Error Correction with Noise Injection" — 매 업데이트마다 적은 연산량으로 빠르게 길을 찾고, 확률적인 노이즈를 활용해 지역 최적해(Local Minima)의 함정을 뛰어넘어 전역 최적해 근처로 수렴해 나가는 패턴.
  • 주요 특징:
    • Efficiency: 방대한 빅데이터 환경에서도 전체 데이터를 다 읽을 필요 없이 실시간 학습 가능.
    • Escaping Local Optima: 무작위 샘플링으로 인한 경로의 요동(Fluctuation)이 오히려 좁은 구덩이를 탈출하게 돕는 동력이 됨.
    • Learning Rate Decay: 수렴 지점 근처에서 지나치게 진동하는 것을 막기 위해 학습률을 서서히 낮추는 전략 병행.
  • 의의: 거의 모든 현대 딥러닝 아키텍처(CNN, Transformer 등)의 가중치를 결정짓는 실질적인 심장이며, Adam, RMSProp 등 수많은 고도화된 옵티마이저의 모태가 됨.

확률적 경사 하강법(Stochastic Gradient Descent, SGD)은 손실 함수(Loss Function)의 값을 최소화하기 위해 모델 파라미터를 업데이트하는 가장 대표적인 최적화 알고리즘입니다.

  1. 작동 원리 (The Descent):
    • Gradient: 현재 위치에서 손실 함숫값이 가장 가파르게 변하는 방향(기울기).
    • Update: 기울기의 반대 방향으로 조금씩(Learning Rate) 파라미터를 조정.
    • Stochastic (확률적): 전체 데이터셋(Batch) 대신 무작위로 선택된 데이터(Mini-batch)만 보고 기울기를 계산하여 속도와 확률적 탐색 능력을 동시에 확보.
  2. 핵심 이점:
    • 전체 데이터를 기다릴 필요 없이 즉각 업데이트하므로 학습 효율이 극도로 높음.
    • 확률적 노이즈가 오히려 지역 최적점(Local Minimum)을 튕겨 나와 더 좋은 전역 최적해로 이끄는 역할을 함.
  3. 변형 알고리즘 (Family of SGD):
    • Momentum: 가던 방향의 관성을 유지하여 수렴 속도 향상.
    • Adam: 변수별로 학습률을 동적으로 조율하는 현대 딥러닝 최적화의 표준 전술.

⚠️ 모순 및 업데이트 (Contradictions & Updates)

  • 과거 데이터와의 충돌: 한 번에 한 개씩만 쓰던 순수 SGD(Pure SGD)에서 벗어나, 이제는 하드웨어 가속(GPU)의 효율성을 극대화하기 위해 수십~수백 개의 묶음 단위로 처리하는 '미니 배치(Mini-batch) SGD'가 실전의 표준으로 정착됨.
  • 정책 변화: Antigravity 프로젝트는 에이전트의 로컬 미세 조정(Fine-tuning) 및 지식 가중치 업데이트 시, 연산 자원 점유율을 최소화하면서도 빠른 수렴이 보장된 최적화된 SGD 파이프라인을 가동함.

  • 과거 데이터와의 충돌: 과거에는 전체 데이터를 다 보는 'Batch GD'가 정답이라 여겼으나, 현대의 거대 모델 정책은 초당 수천 번의 업데이트를 수행하는 'Mini-batch SGD' 기반의 최적화 정책 없이는 학습 자체가 불가능함을 인지함(RL Update).
  • 정책 변화(RL Update): 학습의 효율성과 탄소 배출량이 직결됨에 따라, 더 적은 반복(Iteration)으로 더 빨리 수렴하는 '고효율 SGD 변형 알고리즘' 채택 및 분산 학습 정책이 최우선 기술 정책으로 부임함.

🔗 지식 연결 (Graph)



🤖 LLM 활용 힌트 (How to Use This Knowledge)

언제 이 지식을 쓰는가:

  • (TODO)

언제 쓰면 안 되는가:

  • (TODO)

🧪 검증 상태 (Validation)

  • 정보 상태: needs_review
  • 출처 신뢰도: A
  • 검토 이유: (P-Reinforce Phase 1 자동 정규화. 본문 검증 필요.)

🧬 중복 검사 (Duplicate Check)

  • 기존 유사 문서: (TODO: 인덱서 클러스터 리포트 참조)
  • 처리 방식: UPDATE (자동 정규화)
  • 처리 이유: Phase 1 정규화 — 옛 템플릿/누락 필드 보강.

🕓 변경 이력 (Changelog)

날짜 변경 내용 처리 방식 신뢰도
2026-05-08 P-Reinforce Phase 1 정규화 (frontmatter + 헤더 표준화) UPDATE A

💻 코드 패턴 (Code Patterns)

패턴 1: (TODO: 이 프로젝트 컨벤션 반영한 구조 스켈레톤)

# TODO

🤔 의사결정 기준 (Decision Criteria)

선택 A를 써야 할 때:

  • (TODO)

선택 B를 써야 할 때:

  • (TODO)

기본값:

(TODO)

안티패턴 (Anti-Patterns)

  • [안티패턴]: (TODO: 무엇을 하면 안 되는가 + 이유 + 대신 무엇을)