--- category: Unified tags: [auto-consolidated, technical-documentation] title: [[Concept Drift (개념 드리프트)|Concept Drift (개념 드리프트)]] last_updated: 2026-05-02 --- # [[Concept Drift (개념 드리프트)|Concept Drift (개념 드리프트)]] ## 📌 Brief Summary > "어제의 정답이 오늘의 오답이 되는 현상." 데이터의 통계적 특성이 시간이 지남에 따라 변하여, 과거에 학습된 모델의 예측 성능이 실시간으로 하락하는 리스크를 의미한다. --- > 시간이 지남에 따라 데이터의 통계적 특성이나 생성 메커니즘 자체가 변화하여, 이전에 학습된 AI 모델의 예측 정확도와 신뢰도가 점진적으로 떨어지는 현상이다. --- > "어제의 정답이 오늘의 오답이 될 수 있음을 경계하라" — 시간이 흐름에 따라 입력 데이터와 타겟 변수 사이의 통계적 관계가 변하여, 잘 작동하던 AI 모델의 성능이 점진적으로 저하되는 현상. ## 📖 Core Content - **Types of Drift**: - **Sudden Drift**: 갑작스러운 사회적 변화(예: 팬데믹)로 소비자 패턴이 급변함. - **Gradual Drift**: 시간이 흐르며 조금씩 변화함(예: 언어의 변화, 인플레이션). - **Seasonal Drift**: 특정 주기마다 반복되는 변화. - **Detection Strategies**: - **Statistical Tests**: 데이터 분포의 차이를 측정(P-value, KL-divergence 등). - **Performance Monitoring**: 정확도, 정밀도 등의 지표가 임계값 아래로 떨어지는지 감시. - **Adaptation**: 모델 지속적 재학습(Continuous Retraining), 온라인 학습(Online Learning), 앙상블 가중치 업데이트 등을 통해 대응한다. --- - **정의:** 머신러닝 시스템이 배포되고 운영되는 환경에서 발생하는 데이터 분포의 변화를 의미한다. 이는 단순한 '데이터 부족' 이상의 근본적인 모델 성능 저하 문제다. - **유형 및 원인:** 1. **Covariate [[Shift|Shift]] (공변량 드리프트):** 입력 데이터 $P(X)$가 변하는 경우. (예: 특정 계절에만 발생하는 트래픽 패턴 변화). 2. **Concept Drift (개념 드리프트):** 실제 데이터 생성 과정 자체가 변하여, 같은 입력 $X$에 대한 레이블 $Y$의 조건부 확률 $P(Y|X)$가 변하는 경우. (예: 사용자의 구매 행동 패턴이 시대에 따라 근본적으로 변화). - **탐지 및 대응:** 1. **모니터링:** 모델 예측 결과와 실제 데이터 분포 간의 KL Divergence, JS Divergence 등을 주기적으로 측정하여 이상 징후를 포착한다. 2. **재학습 (Retraining):** 드리프트가 감지되면 최신 데이터를 반영하여 모델을 재학습하거나(Online Learning), 모델 자체를 업데이트해야 한다. --- - **추출된 패턴:** 고정된 데이터셋으로 학습된 모델이 변화하는 현실 세계의 동역학(Dynamics)을 따라잡지 못해 예측 정밀도가 떨어지는 성능 열화 패턴. - **주요 유형:** - **Sudden Drift:** 외부 요인으로 인해 갑자기 분포가 변함 (예: 팬데믹 발생 후 소비 패턴 변화). - **Gradual Drift:** 시간이 지나며 서서히 변함 (예: 기술 발전에 따른 단어 의미 변화). - **Incremental Drift:** 작은 변화들이 축적되어 큰 변화를 이룸. - **Recurring Drift:** 계절적 요인처럼 주기적으로 나타나는 변화. - **대응 전략:** 실시간 모델 성능 모니터링, 데이터 분포 차이(K-S test 등) 측정, 주기적인 모델 재학습(Retraining), 온라인 학습(Online Learning) 도입. ## ⚖️ Trade-offs & Caveats - 개념 드리프트와 데이터 드리프트(Data Drift)를 혼동해서는 안 된다. 데이터 드리프트는 입력 데이터($X$)의 분포 변화이고, 개념 드리프트는 입력과 출력의 관계($P(Y|X)$) 자체가 변하는 것이다. 개념 드리프트가 발생하면 모델의 '로직' 자체가 유효하지 않게 되므로 훨씬 더 위험하다. --- - **과거 데이터와의 충돌:** 개념 드리프트는 '일회성 문제'가 아니라, AI/MLOps 운영의 *지속적인* 관리 영역임을 인식해야 하며, 이를 위한 자동화 파이프라인(Monitoring Pipeline) 구축이 필수적이다. - **정책 변화:** 최근에는 설명 가능한 AI (XAI) 기법을 결합하여, 모델이 왜 성능 저하를 겪고 있는지 '어떤 개념'에서 벗어났는지 진단하는 것이 중요해지고 있다. --- - **과거 데이터와의 충돌:** 한 번 배포된 모델은 영원히 작동할 것이라는 안일한 가정에서 벗어나, 모델의 '유효 기간'을 관리해야 하는 MLOps적 관점으로 전환. - **정책 변화:** Antigravity 프로젝트는 위키 지식의 최신성을 유지하기 위해, 새로운 정보가 유입될 때 기존 지식과의 정합성을 체크하고 개념 드리프트가 감지되면 해당 지식을 업데이트 목록으로 자동 분류함. ## 🔗 Knowledge Connections - Related: [[MLOps|MLOps]] , Model Collapse (모델 붕괴 현상) - Comparison: [[Data Distillation (데이터 증류)|Data [[Distillation]] (데이터 증류)]] --- - Parent: Model Collapse (모델 붕괴 현상) - Related: [[MLOps|MLOps]] , Data Science in UX , Continuous Monitoring --- --- - [[MLOps|MLOps]], [[Statistical-Learning-Theory|Statistical-Learning-Theory]], [[Data-Flywheel-Effect|Data-Flywheel-Effect]], [[Uncertainty-Quantification|Uncertainty-Quantification]] - **Raw Source:** 10_Wiki/Topics/AI/Concept-Drift.md