"매 single hidden layer 의 finite-width MLP 가 매 compact subset of ℝⁿ 위 의 매 continuous function 의 arbitrary 정확도 approximation 가능." Cybenko (1989, sigmoid) · Hornik (1991, general activation) 가 매 정립. 매 existence theorem — 매 width 와 매 trainability 와 매 generalization 은 매 별개. 매 deep learning 의 success 의 explanation 의 X.
매 핵심
매 정확한 statement (Hornik 1991)
매 σ: ℝ → ℝ 가 매 non-constant, bounded, monotonically increasing continuous activation 일 때,
매 finite sum f(x) = Σᵢ αᵢ σ(wᵢᵀx + bᵢ) 가 매 C(K) (compact K ⊂ ℝⁿ 위 의 continuous function) 의 dense subset.
즉 매 ε > 0, 매 width N 이 충분히 크면 매 sup|f - g| < ε 의 g 존재.
매 무엇을 의미 (그리고 의미 X)
✅Existence: 매 충분한 width 의 NN 이 매 함수 의 표현 가능.
❌NOT trainability: 매 SGD 가 매 그 weight 의 찾을 수 있다는 보장 X.
❌NOT efficiency: 매 width 가 매 exponential in dimension 일 수 있음.
❌NOT generalization: 매 train set 의 fit 과 매 test 의 generalize 는 별개.
❌NOT depth necessity: 매 1 hidden layer 로 충분 — 매 deep 의 정당화 X.
매 variants
Cybenko 1989: sigmoid, single hidden layer.
Hornik 1991: general non-polynomial activation.
Leshno 1993: 매 σ 가 polynomial 이 아니면 충분 — necessary + sufficient.
Lu et al. 2017 (Deep narrow): width n+4 의 ReLU + 매 unbounded depth 가 universal.
Yarotsky 2017: 매 deep ReLU 의 매 efficient approximation rate — 매 smooth function 매 exponentially fewer parameter.
매 deep > shallow 의 이유 (UAT 너머)
Expressivity: 매 same parameter budget 에서 매 deep 이 매 더 복잡한 function class 를 represent (Telgarsky 2016).
Optimization landscape: 매 deep 이 매 SGD 로 매 reachable 한 minimum 의 quality.
Inductive bias: 매 hierarchical structure (CNN, Transformer) 가 매 task structure 에 align.
매 응용 (의 한계)
연구 정당화: 매 NN 이 매 표현력 부족 X — 매 아키텍처 search 의 lower bound.
교육: 매 first principle — 매 NN 이 매 universal function approximator.
❌실무 결정: 매 UAT 자체로 매 architecture · hyperparameter 결정 X.
💻 패턴
매 sin(x) 의 1-layer MLP approximation
importtorchimporttorch.nnasnnimportnumpyasnpclassSingleLayerMLP(nn.Module):def__init__(self,hidden=200):super().__init__()self.fc1=nn.Linear(1,hidden)self.fc2=nn.Linear(hidden,1)defforward(self,x):returnself.fc2(torch.tanh(self.fc1(x)))x=torch.linspace(-2*np.pi,2*np.pi,1000).unsqueeze(1)y=torch.sin(x)model=SingleLayerMLP(hidden=200)opt=torch.optim.Adam(model.parameters(),lr=1e-2)forstepinrange(5000):pred=model(x)loss=((pred-y)**2).mean()opt.zero_grad();loss.backward();opt.step()print(f"Final MSE: {loss.item():.6f}")# 매 ~1e-5 — 매 UAT 의 empirical 확인
매 width vs error trade-off
importmatplotlib.pyplotasplterrors={}forhin[4,8,16,32,64,128,256,512]:model=SingleLayerMLP(hidden=h)opt=torch.optim.Adam(model.parameters(),lr=1e-2)for_inrange(3000):loss=((model(x)-y)**2).mean()opt.zero_grad();loss.backward();opt.step()errors[h]=loss.item()plt.loglog(list(errors.keys()),list(errors.values()))# 매 width ↑ → 매 error ↓ 매 polynomial decay
매 high-dim curse (UAT 의 hidden cost)
# 매 width 가 매 dimension 에 매 exponential 의 demonstrationdefrequired_width(d,target_eps=0.1):# 매 worst-case bound: width ~ (1/eps)^d 의 orderreturnint((1/target_eps)**d)fordinrange(1,11):print(f"d={d}: 매 width ~ {required_width(d):.2e}")# d=10 → 매 10^10 — 매 1-layer 매 impractical
매 deep narrow (Lu et al.) — width n+4 ReLU 가 universal
classDeepNarrow(nn.Module):def__init__(self,in_dim=2,depth=20):super().__init__()w=in_dim+4# 매 sufficient widthself.layers=nn.Sequential(nn.Linear(in_dim,w),*[nn.Sequential(nn.ReLU(),nn.Linear(w,w))for_inrange(depth)],nn.ReLU(),nn.Linear(w,1),)defforward(self,x):returnself.layers(x)
매 Yarotsky's smooth function rate
# 매 C^k function 의 매 deep ReLU NN 매 ε-approximation# 매 parameter count: O(ε^(-d/k) · log(1/ε))# 매 shallow 보다 매 exponentially efficient (k 큼 → big)defyarotsky_params(eps,d,k):importmathreturnint(eps**(-d/k)*math.log(1/eps))print(yarotsky_params(1e-3,5,4))# 매 d=5 dim, k=4 smoothness
매 UAT 의 empirical demonstration: discontinuous function
# 매 step function — 매 continuous 가정 violation → 매 UAT 적용 Xdefstep(x):return(x>0).float()y_step=step(x)model=SingleLayerMLP(hidden=200)opt=torch.optim.Adam(model.parameters(),lr=1e-2)for_inrange(5000):loss=((model(x)-y_step)**2).mean()opt.zero_grad();loss.backward();opt.step()# 매 model 이 매 jump discontinuity 매 smooth 하게 approximate — 매 perfect X# 매 UAT 의 continuous 전제 의 필수
매 결정 기준
상황
Approach
매 architecture 결정
매 UAT 로 X — 매 empirical · inductive bias 우선
매 width 의 lower bound 의 search
매 UAT 의 existence — 매 sufficient 만 보장
매 NN 의 표현력 의 의심
매 UAT 가 매 reassurance — 매 충분 width 필요
매 production model
매 깊이 + 매 inductive bias (CNN, Transformer) 우선
기본값: 매 UAT 는 매 educational · theoretical 의 foundation, 매 engineering decision 의 driver X.