2.4 KiB
2.4 KiB
id, category, confidence_score, tags, last_reinforced
| id | category | confidence_score | tags | last_reinforced | |||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| OPT-GRAD-001 | 10_Wiki/💡 Topics/AI | 1.0 |
|
2026-04-26 |
Gradient Descent Foundations (경사 하강법 기초)
📌 한 줄 통찰 (The Karpathy Summary)
"어둠 속에서 지형의 기울기만을 느끼며 가장 낮은 골짜기를 향해 끈기 있게 내려가라" — 모델의 예측값과 실제값 사이의 오차(Loss)를 정의하고, 이 오차를 최소화하는 방향으로 파라미터를 점진적으로 수정해 나가는 인공지능 학습의 근본 알고리즘.
📖 구조화된 지식 (Synthesized Content)
- 추출된 패턴: 목적 함수의 미분값(Gradient)이 가리키는 방향의 반대 방향으로 학습률(Learning Rate)만큼 파라미터를 업데이트하여, 오차라는 산맥의 최저점을 찾는 반복적 최적화 패턴.
- 핵심 요소:
- Learning Rate (
\eta): 한 번에 얼마나 멀리 이동할지 결정. 너무 크면 발산하고, 너무 작으면 학습이 느림. - Partial Derivative: 각 파라미터가 오차에 미치는 영향력을 개별적으로 계산.
- Step: 현재 위치에서 기울기가 가장 가파른 방향의 반대로 이동하는 한 단계의 연산.
- Learning Rate (
- 주요 변형:
- stochastic gradient descent (SGD): 하나의 데이터만 보고 즉시 업데이트. 빠르지만 요동이 심함.
- Mini-batch SGD: 적절한 묶음 데이터를 사용하여 속도와 안정성의 균형을 맞춤. 현대 딥러닝의 표준.
- 의의: 복잡한 신경망의 수백만 개 파라미터를 학습시킬 수 있는 유일하고 실질적인 방법.
⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- 과거 데이터와의 충돌: 단순히 기울기만 따라가던 방식에서, 이제는 관성(Momentum)과 가변 학습률(Adam, RMSProp)을 더해 훨씬 효율적으로 최저점을 찾는 방식으로 진화.
- Global-vs-Local-Optima 문서와 연계하여, 지역 최적해의 함정을 피하는 것이 경사 하강법 운영의 핵심 기술임.
🔗 지식 연결 (Graph)
- Backpropagation, Global-vs-Local-Optima, Deep-Learning-Foundations, Mathematics-for-AI
- Raw Source: 10_Wiki/Topics/AI/Gradient-Descent.md