id, title, category, status, canonical_id, aliases, duplicate_of, source_trust_level, confidence_score, verification_status, tags, raw_sources, last_reinforced, github_commit, tech_stack
id
title
category
status
canonical_id
aliases
duplicate_of
source_trust_level
confidence_score
verification_status
tags
raw_sources
last_reinforced
github_commit
tech_stack
wiki-2026-0508-logistic-regression-foundations
Logistic Regression Foundations
10_Wiki/Topics
verified
self
Logistic Regression
Logit
Softmax Regression
Multinomial Logistic
none
A
0.9
applied
machine-learning
classification
sklearn
mle
calibration
2026-05-10
pending
language
framework
python
scikit-learn/statsmodels
Logistic Regression Foundations
매 한 줄
"매 분류의 baseline — 선형 logit + sigmoid + MLE" . Logistic regression은 linear model로 log-odds를 추정하고 sigmoid로 확률화한 classifier. 해석성·calibration·속도가 뛰어나 production에서 여전히 1순위 baseline. 다중 class는 softmax(=multinomial)로 일반화.
매 핵심
매 수식
모델: P(y=1|x) = \sigma(x^T\beta) = \frac{1}{1+e^{-x^T\beta}}.
Logit (log-odds): \log\frac{p}{1-p} = x^T\beta.
Loss (NLL/BCE): -\sum_i [y_i\log p_i + (1-y_i)\log(1-p_i)].
추정: MLE — closed-form 없음, IRLS / L-BFGS / SGD.
매 해석
\beta_j 1 단위 증가 → log-odds가 \beta_j 만큼 증가.
e^{\beta_j} = odds ratio (1.5면 50% odds 증가).
Sign과 magnitude 둘 다 의미 있음 (단, scale 통일 필수).
매 Multinomial / softmax
P(y=k|x) = \frac{e^{x^T\beta_k}}{\sum_j e^{x^T\beta_j}}.
sklearn multi_class="multinomial" (default 2026).
One-vs-Rest는 클래스 분포 불균형 시 유리할 수 있음.
매 Regularization
L2 (default): C = 1/\lambda.
L1: feature selection.
Elastic Net: SAGA solver.
매 Calibration
LR은 보통 잘 calibrated이지만 imbalanced + regularized하면 이탈.
검증: CalibratedClassifierCV, reliability diagram.
매 응용
CTR / 전환 예측.
신용 평가 (해석 필수 도메인).
의료 risk score.
텍스트 분류 (TF-IDF + LR — 강력한 baseline).
A/B test의 효과 추정 (treatment dummy).
💻 패턴
sklearn — 기본
Hyper-param search (C, penalty)
Multinomial (softmax)
statsmodels — odds ratio + p-value
Imbalanced classes
Calibration 점검 + 보정
From scratch — gradient descent
PyTorch — large-scale logistic
매 결정 기준
상황
Approach
Tabular baseline
sklearn LR + StandardScaler
해석 필요 (의료/금융)
statsmodels Logit + odds ratio
Imbalanced
class_weight + threshold tuning
Multi-class
multinomial + lbfgs
Sparse / feature selection
L1 + saga
Probability를 점수로 사용
CalibratedClassifierCV
대규모
PyTorch SGD/Adam
기본값 : StandardScaler + LR(C=1, L2) + threshold tuning.
🔗 Graph
🤖 LLM 활용
언제 : 결과 해석 (odds ratio 설명), feature importance narrative, calibration plot 코멘트.
언제 X : 도메인 cutoff (금융 risk threshold) — 비즈니스/규제가 결정.
❌ 안티패턴
Scaling 없이 regularize : 큰 scale feature가 패널티 지배.
Threshold 0.5 그대로 : imbalanced일 때 거의 잘못된 선택.
Probability를 그대로 신뢰 : calibration 안 함.
Multi-class에 OvR만 사용 : 클래스 간 정보 손실.
수렴 안 되는데 max_iter 안 늘림 : warning 무시 → 부정확한 coef.
🧪 검증 / 중복
Verified (ESL Ch.4, sklearn 1.5+, statsmodels 0.14, Kaggle baselines).
신뢰도 A.
🕓 Changelog
날짜
변경
2026-05-08
Phase 1
2026-05-10
Manual cleanup — calibration, threshold tuning, multinomial 추가