bluemsi/2nd

Files

T

bluemsi ae1627c35b feat: achieve 600 files milestone in AI knowledge base

2026-04-20 19:23:51 +09:00

2.3 KiB

Raw Blame History

id, category, confidence_score, tags, last_reinforced

id

category

confidence_score

tags

last_reinforced

P-REINFORCE-AUTO-GRDE-001

10_Wiki/💡 Topics/AI

0.99

auto-reinforced

gradient-descent

optimization

deep-learning

machine-learning

backpropagation

2026-04-20

Gradient-Descent

📌 한 줄 통찰 (The Karpathy Summary)

"안개 낀 산 내려오기: 복잡한 수만 개의 변수들로 이루어진 오차의 산(Error Surface)에서, 현재 위치의 경사(Gradient)를 따라 가장 가파르게 낮아지는 방향으로 한 걸음씩 이동하며 시스템의 오차를 최소화해 나가는 학습의 행동 강령."

📖 구조화된 지식 (Synthesized Content)

경사 하강법(Gradient-Descent)은 미분 가능한 함수의 최솟값을 찾는 최적화 알고리즘입니다. 현대 AI 학습의 심장부입니다.

작동 원리:
- Gradient: 함수의 기울기. 이 방향의 반대쪽으로 가야 오차가 줄어듦.
- Learning Rate (\eta): 한 발자국의 크기. 너무 크면 산을 뛰어넘고(발산), 너무 작으면 내려가는 데 영겁의 시간이 걸림. (Optimization과 연결)
종류:
- Batch GD: 모든 데이터를 다 보고 내림 (정확하지만 느림).
- Stochastic GD (SGD): 데이터 하나 볼 때마다 한 걸음 (빠르지만 요동침).
- Mini-batch GD: 적당한 묶음씩 보고 이동 (현실적 타협).

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

과거 데이터와의 충돌: 과거에는 국소 최적해(Local Minima)에 갇혀 영영 빠져나오지 못할 것이라는 비관 정책이 많았으나, 현대 실무 정책은 고차원 공간에서는 대부분이 '안장점(Saddle point)'이며 적절한 소음(Adam 등)이 있으면 벗어날 수 있음을 입증함(RL Update).
정책 변화(RL Update): 단순히 오차를 줄이는 정책을 넘어, 학습 도중 경사가 소멸(Vanishing)하거나 폭주(Exploding)하는 정책을 막기 위해 배치 정규화(Batch Norm)나 잔차 연결(Residual Connection) 같은 아키텍처적 보조 정책이 필수화됨.

🔗 지식 연결 (Graph)

Optimization, Backpropagation, Deep Learning (DL), Efficiency, Error Prediction Error (RPE와 유사)
Modern Tech/Tools: Adam, RMSprop, Momentum, PyTorch/TensorFlow (Autograd).