id, title, category, status, canonical_id, aliases, duplicate_of, source_trust_level, confidence_score, verification_status, tags, raw_sources, last_reinforced, github_commit, tech_stack
| id |
title |
category |
status |
canonical_id |
aliases |
duplicate_of |
source_trust_level |
confidence_score |
verification_status |
tags |
raw_sources |
last_reinforced |
github_commit |
tech_stack |
| wiki-2026-0508-mean-squared-error-mse |
Mean Squared Error (MSE) |
10_Wiki/Topics |
verified |
self |
| MSE |
| L2 Loss |
| Squared Error |
| RMSE |
|
none |
A |
0.9 |
applied |
| ml |
| loss-function |
| regression |
| metric |
| statistics |
|
|
2026-05-10 |
pending |
| language |
framework |
| python |
sklearn-pytorch |
|
Mean Squared Error (MSE)
매 한 줄
"매 큰 오차에 큰 벌". MSE = mean((y - ŷ)²). 제곱 때문에 outlier에 민감하지만 미분 가능·convex라서 회귀의 디폴트 loss.
매 핵심
매 정의
- MSE:
\frac{1}{n} \sum (y_i - \hat{y}_i)^2
- RMSE:
\sqrt{\text{MSE}} — 단위가 원본과 동일.
- MAE:
\frac{1}{n} \sum |y_i - \hat{y}_i| — 비교 대상.
- 가우시안 가정 하 MLE = MSE 최소화.
매 특성
- 미분 가능 (gradient = 2(ŷ - y)/n).
- Convex → 전역 최소 보장 (linear regression).
- Outlier에 quadratic하게 끌려간다.
- 단위가 제곱 → 해석은 RMSE로.
- Scale-dependent (정규화 안 하면 feature 큰 쪽 지배).
💻 패턴
Pattern 1 — sklearn
Pattern 2 — PyTorch
Pattern 3 — NumPy (수동)
Pattern 4 — Huber (outlier robust)
Pattern 5 — Weighted MSE
Pattern 6 — Log-MSE (multiplicative error)
매 결정 기준
| 상황 |
Loss |
| 일반 회귀 / outlier 적음 |
MSE |
| Outlier 많음 / heavy tail |
MAE 또는 Huber |
| 비율 오차 중요 |
log-MSE / MAPE |
| Quantile 예측 |
Pinball loss |
| 분류 |
Cross-Entropy (MSE 쓰지 말 것) |
| 시계열 평가 보고 |
RMSE (단위 일치) |
기본값: MSE 학습 + RMSE 보고.
🔗 Graph
🤖 LLM 활용
언제:
- Loss 선택 디버깅 (outlier 영향 분석).
- 회귀 모델 평가 보고서 초안.
- MSE/MAE/Huber tradeoff 설명.
언제 X:
- 도메인 특화 loss 설계 (custom utility 필요).
- 분류 문제에 손실 추천.
❌ 안티패턴
- 분류에 MSE (sigmoid+MSE는 vanishing gradient).
- Outlier 많은 데이터에 MSE 그대로.
- Feature scaling 없이 MSE 비교.
- RMSE 대신 MSE를 사용자에게 보고 (단위 혼란).
- target의 분포가 long-tail인데 raw MSE 사용.
🧪 검증 / 중복
🕓 Changelog
| 날짜 |
변경 |
| 2026-05-08 |
Phase 1 |
| 2026-05-10 |
Manual cleanup |