"매 encoder 가 input 의 latent distribution (μ, σ) 의 produce → reparameterization trick 으로 sample → decoder 의 reconstruct. 매 ELBO = reconstruction loss + KL(q(z|x) || p(z))". 매 Kingma & Welling 2013 (Auto-Encoding Variational Bayes). 매 2026 의 modern role: standalone generation 의 X (diffusion 의 우위) BUT 매 Stable Diffusion / FLUX / Sora 의 latent space 의 backbone — 매 image 의 8× downsampled latent 의 work.
매 핵심
매 수학 (ELBO)
Goal: maximize log p(x). 매 intractable.
Trick: variational posterior q_φ(z|x) ≈ p(z|x). 매 ELBO 의 lower bound.
언제: 매 latent diffusion 의 VAE component 설명, 매 anomaly detection baseline 작성, 매 ELBO 수학 의 derivation, 매 reparameterization trick 의 implementation.
언제 X: 매 standalone SOTA image generation (diffusion 우선), 매 sharp output 필수 (GAN/diffusion).
❌ 안티패턴
Posterior collapse: q(z|x) → p(z) 의 무시 → KL=0, decoder 의 z 의 ignore. 매 KL annealing / β scheduling 필요.
Pixel-space VAE 의 high-res 직접: 매 blurry, 매 8× downsample latent + diffusion 으로 decouple.
σ 의 직접 output: 매 negative 가능. 매 logvar 의 output → σ = exp(0.5 * logvar).
KL 의 mean reduction: 매 batch mean 의 reconstruction 의 sum 과 mismatch — 매 두 term 의 same reduction.