Files
2nd/10_Wiki/Topics/Concept-Drift.md
T

5.5 KiB

category, tags, title, last_updated
category tags title last_updated
Unified
auto-consolidated
technical-documentation
Concept Drift (개념 드리프트)|Concept Drift (개념 드리프트)
2026-05-02

Concept Drift (개념 드리프트)

📌 Brief Summary

"어제의 정답이 오늘의 오답이 되는 현상." 데이터의 통계적 특성이 시간이 지남에 따라 변하여, 과거에 학습된 모델의 예측 성능이 실시간으로 하락하는 리스크를 의미한다.


시간이 지남에 따라 데이터의 통계적 특성이나 생성 메커니즘 자체가 변화하여, 이전에 학습된 AI 모델의 예측 정확도와 신뢰도가 점진적으로 떨어지는 현상이다.


"어제의 정답이 오늘의 오답이 될 수 있음을 경계하라" — 시간이 흐름에 따라 입력 데이터와 타겟 변수 사이의 통계적 관계가 변하여, 잘 작동하던 AI 모델의 성능이 점진적으로 저하되는 현상.

📖 Core Content

  • Types of Drift:
    • Sudden Drift: 갑작스러운 사회적 변화(예: 팬데믹)로 소비자 패턴이 급변함.
    • Gradual Drift: 시간이 흐르며 조금씩 변화함(예: 언어의 변화, 인플레이션).
    • Seasonal Drift: 특정 주기마다 반복되는 변화.
  • Detection Strategies:
    • Statistical Tests: 데이터 분포의 차이를 측정(P-value, KL-divergence 등).
    • Performance Monitoring: 정확도, 정밀도 등의 지표가 임계값 아래로 떨어지는지 감시.
  • Adaptation: 모델 지속적 재학습(Continuous Retraining), 온라인 학습(Online Learning), 앙상블 가중치 업데이트 등을 통해 대응한다.

  • 정의: 머신러닝 시스템이 배포되고 운영되는 환경에서 발생하는 데이터 분포의 변화를 의미한다. 이는 단순한 '데이터 부족' 이상의 근본적인 모델 성능 저하 문제다.
  • 유형 및 원인:
    1. Covariate Shift (공변량 드리프트): 입력 데이터 $P(X)$가 변하는 경우. (예: 특정 계절에만 발생하는 트래픽 패턴 변화).
    2. Concept Drift (개념 드리프트): 실제 데이터 생성 과정 자체가 변하여, 같은 입력 $X$에 대한 레이블 $Y$의 조건부 확률 $P(Y|X)$가 변하는 경우. (예: 사용자의 구매 행동 패턴이 시대에 따라 근본적으로 변화).
  • 탐지 및 대응:
    1. 모니터링: 모델 예측 결과와 실제 데이터 분포 간의 KL Divergence, JS Divergence 등을 주기적으로 측정하여 이상 징후를 포착한다.
    2. 재학습 (Retraining): 드리프트가 감지되면 최신 데이터를 반영하여 모델을 재학습하거나(Online Learning), 모델 자체를 업데이트해야 한다.

  • 추출된 패턴: 고정된 데이터셋으로 학습된 모델이 변화하는 현실 세계의 동역학(Dynamics)을 따라잡지 못해 예측 정밀도가 떨어지는 성능 열화 패턴.
  • 주요 유형:
    • Sudden Drift: 외부 요인으로 인해 갑자기 분포가 변함 (예: 팬데믹 발생 후 소비 패턴 변화).
    • Gradual Drift: 시간이 지나며 서서히 변함 (예: 기술 발전에 따른 단어 의미 변화).
    • Incremental Drift: 작은 변화들이 축적되어 큰 변화를 이룸.
    • Recurring Drift: 계절적 요인처럼 주기적으로 나타나는 변화.
  • 대응 전략: 실시간 모델 성능 모니터링, 데이터 분포 차이(K-S test 등) 측정, 주기적인 모델 재학습(Retraining), 온라인 학습(Online Learning) 도입.

⚖️ Trade-offs & Caveats

  • 개념 드리프트와 데이터 드리프트(Data Drift)를 혼동해서는 안 된다. 데이터 드리프트는 입력 데이터(X)의 분포 변화이고, 개념 드리프트는 입력과 출력의 관계(P(Y|X)) 자체가 변하는 것이다. 개념 드리프트가 발생하면 모델의 '로직' 자체가 유효하지 않게 되므로 훨씬 더 위험하다.

  • 과거 데이터와의 충돌: 개념 드리프트는 '일회성 문제'가 아니라, AI/MLOps 운영의 지속적인 관리 영역임을 인식해야 하며, 이를 위한 자동화 파이프라인(Monitoring Pipeline) 구축이 필수적이다.
  • 정책 변화: 최근에는 설명 가능한 AI (XAI) 기법을 결합하여, 모델이 왜 성능 저하를 겪고 있는지 '어떤 개념'에서 벗어났는지 진단하는 것이 중요해지고 있다.

  • 과거 데이터와의 충돌: 한 번 배포된 모델은 영원히 작동할 것이라는 안일한 가정에서 벗어나, 모델의 '유효 기간'을 관리해야 하는 MLOps적 관점으로 전환.
  • 정책 변화: Antigravity 프로젝트는 위키 지식의 최신성을 유지하기 위해, 새로운 정보가 유입될 때 기존 지식과의 정합성을 체크하고 개념 드리프트가 감지되면 해당 지식을 업데이트 목록으로 자동 분류함.

🔗 Knowledge Connections


  • Parent: Model Collapse (모델 붕괴 현상)
  • Related: MLOps , Data Science in UX , Continuous Monitoring