"매 max-variance orthogonal directions 의 projection". Pearson(1901) 의 origin 의 매 covariance eigendecomposition / SVD 의 reduction — 매 visualization, denoising, compression, 매 ML preprocessing 의 baseline.
매 핵심
매 수학
매 centered data X (n×p), 매 covariance C = XᵀX/(n-1).
매 eigendecomposition C = VΛVᵀ — 매 V 의 columns 가 principal axes.
매 SVD X = UΣVᵀ — 매 numerically stable path; 매 PC scores = UΣ.
매 explained variance ratio = λᵢ / Σλⱼ.
매 절차
매 mean-center (and 보통 standardize).
매 SVD or eigendecomp.
매 top-k components 의 select (scree / variance threshold).
언제: 매 dense numeric features 의 linear-correlated 의 visualize / denoise / compress.
언제 X: 매 nonlinear manifold (rolled / curved) — 매 UMAP / t-SNE / autoencoder 의 사용. 매 categorical / sparse count — 매 MCA / TruncatedSVD.
❌ 안티패턴
No mean-centering: 매 first PC 의 just mean 의 direction 의 됨.
Scaling 무시: 매 unit-mismatched features (mm vs kg) 의 dominate.
Top-k 의 magic number: 매 scree / cum-variance 의 검토 없이 k 의 hardcode.
Test set leakage: 매 fit on full data 후 split — fit 의 train 만.
Interpreting PCs as "factors": 매 PCA ≠ Factor Analysis (FA).