"매 minimize f(x) subject to constraints". 매 optimization은 매 ML/OR/control/finance/engineering 의 universal language이며, 매 2026 LLM 학습은 매 AdamW + cosine schedule + grad clip + mixed precision의 매 standard recipe — 매 convexity·smoothness·stochasticity·constraint structure 가 매 algorithm choice를 결정.
매 핵심
매 분류축
Convex vs Nonconvex: convex → global guarantee; nonconvex (deep nets) → local + heuristics.
언제: optimizer recipe selection, hyperparam search prior, KKT/Lagrangian derivation 매 explanation.
언제 X: 실제 numerical solving (PyTorch/CVXPY/Gurobi 매 사용).
❌ 안티패턴
Adam everywhere: 매 small data / convex problem 매 Adam — 매 SGD or L-BFGS 매 더 좋음.
No grad clipping for transformers: 매 explosion 매 inevitable.
Constant LR: 매 cosine / warmup 매 거의 항상 도움.
Local minimum panic: 매 deep net의 saddle point가 매 진짜 problem (not local min).
Convex assumption violation: 매 nonconvex에 매 convex solver 매 적용 → 매 wrong answer.