Files
2nd/10_Wiki/Topics/AI_and_ML/Concept-Drift.md
T

79 lines
5.5 KiB
Markdown

---
category: Unified
tags: [auto-consolidated, technical-documentation]
title: [[Concept Drift (개념 드리프트)|Concept Drift (개념 드리프트)]]
last_updated: 2026-05-02
---
# [[Concept Drift (개념 드리프트)|Concept Drift (개념 드리프트)]]
## 📌 Brief Summary
> "어제의 정답이 오늘의 오답이 되는 현상." 데이터의 통계적 특성이 시간이 지남에 따라 변하여, 과거에 학습된 모델의 예측 성능이 실시간으로 하락하는 리스크를 의미한다.
---
> 시간이 지남에 따라 데이터의 통계적 특성이나 생성 메커니즘 자체가 변화하여, 이전에 학습된 AI 모델의 예측 정확도와 신뢰도가 점진적으로 떨어지는 현상이다.
---
> "어제의 정답이 오늘의 오답이 될 수 있음을 경계하라" — 시간이 흐름에 따라 입력 데이터와 타겟 변수 사이의 통계적 관계가 변하여, 잘 작동하던 AI 모델의 성능이 점진적으로 저하되는 현상.
## 📖 Core Content
- **Types of Drift**:
- **Sudden Drift**: 갑작스러운 사회적 변화(예: 팬데믹)로 소비자 패턴이 급변함.
- **Gradual Drift**: 시간이 흐르며 조금씩 변화함(예: 언어의 변화, 인플레이션).
- **Seasonal Drift**: 특정 주기마다 반복되는 변화.
- **Detection Strategies**:
- **Statistical Tests**: 데이터 분포의 차이를 측정(P-value, KL-divergence 등).
- **Performance Monitoring**: 정확도, 정밀도 등의 지표가 임계값 아래로 떨어지는지 감시.
- **Adaptation**: 모델 지속적 재학습(Continuous Retraining), 온라인 학습(Online Learning), 앙상블 가중치 업데이트 등을 통해 대응한다.
---
- **정의:** 머신러닝 시스템이 배포되고 운영되는 환경에서 발생하는 데이터 분포의 변화를 의미한다. 이는 단순한 '데이터 부족' 이상의 근본적인 모델 성능 저하 문제다.
- **유형 및 원인:**
1. **Covariate [[Shift|Shift]] (공변량 드리프트):** 입력 데이터 $P(X)$가 변하는 경우. (예: 특정 계절에만 발생하는 트래픽 패턴 변화).
2. **Concept Drift (개념 드리프트):** 실제 데이터 생성 과정 자체가 변하여, 같은 입력 $X$에 대한 레이블 $Y$의 조건부 확률 $P(Y|X)$가 변하는 경우. (예: 사용자의 구매 행동 패턴이 시대에 따라 근본적으로 변화).
- **탐지 및 대응:**
1. **모니터링:** 모델 예측 결과와 실제 데이터 분포 간의 KL Divergence, JS Divergence 등을 주기적으로 측정하여 이상 징후를 포착한다.
2. **재학습 (Retraining):** 드리프트가 감지되면 최신 데이터를 반영하여 모델을 재학습하거나(Online Learning), 모델 자체를 업데이트해야 한다.
---
- **추출된 패턴:** 고정된 데이터셋으로 학습된 모델이 변화하는 현실 세계의 동역학(Dynamics)을 따라잡지 못해 예측 정밀도가 떨어지는 성능 열화 패턴.
- **주요 유형:**
- **Sudden Drift:** 외부 요인으로 인해 갑자기 분포가 변함 (예: 팬데믹 발생 후 소비 패턴 변화).
- **Gradual Drift:** 시간이 지나며 서서히 변함 (예: 기술 발전에 따른 단어 의미 변화).
- **Incremental Drift:** 작은 변화들이 축적되어 큰 변화를 이룸.
- **Recurring Drift:** 계절적 요인처럼 주기적으로 나타나는 변화.
- **대응 전략:** 실시간 모델 성능 모니터링, 데이터 분포 차이(K-S test 등) 측정, 주기적인 모델 재학습(Retraining), 온라인 학습(Online Learning) 도입.
## ⚖️ Trade-offs & Caveats
- 개념 드리프트와 데이터 드리프트(Data Drift)를 혼동해서는 안 된다. 데이터 드리프트는 입력 데이터($X$)의 분포 변화이고, 개념 드리프트는 입력과 출력의 관계($P(Y|X)$) 자체가 변하는 것이다. 개념 드리프트가 발생하면 모델의 '로직' 자체가 유효하지 않게 되므로 훨씬 더 위험하다.
---
- **과거 데이터와의 충돌:** 개념 드리프트는 '일회성 문제'가 아니라, AI/MLOps 운영의 *지속적인* 관리 영역임을 인식해야 하며, 이를 위한 자동화 파이프라인(Monitoring Pipeline) 구축이 필수적이다.
- **정책 변화:** 최근에는 설명 가능한 AI (XAI) 기법을 결합하여, 모델이 왜 성능 저하를 겪고 있는지 '어떤 개념'에서 벗어났는지 진단하는 것이 중요해지고 있다.
---
- **과거 데이터와의 충돌:** 한 번 배포된 모델은 영원히 작동할 것이라는 안일한 가정에서 벗어나, 모델의 '유효 기간'을 관리해야 하는 MLOps적 관점으로 전환.
- **정책 변화:** Antigravity 프로젝트는 위키 지식의 최신성을 유지하기 위해, 새로운 정보가 유입될 때 기존 지식과의 정합성을 체크하고 개념 드리프트가 감지되면 해당 지식을 업데이트 목록으로 자동 분류함.
## 🔗 Knowledge Connections
- Related: [[MLOps|MLOps]] , Model Collapse (모델 붕괴 현상)
- Comparison: [[Data Distillation (데이터 증류)|Data [[Distillation]] (데이터 증류)]]
---
- Parent: Model Collapse (모델 붕괴 현상)
- Related: [[MLOps|MLOps]] , Data Science in UX , Continuous Monitoring
---
---
- [[MLOps|MLOps]], [[Statistical-Learning-Theory|Statistical-Learning-Theory]], [[Data-Flywheel-Effect|Data-Flywheel-Effect]], [[Uncertainty-Quantification|Uncertainty-Quantification]]
- **Raw Source:** 10_Wiki/Topics/AI/Concept-Drift.md