2nd/10_Wiki/Topics/AI/Shadowing-and-Observability.md

---
id: SYS-OBS-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 1.0
tags: [systems, observability, shadowing, monitoring, mlops, distributed-tracing, reliability]
last_reinforced: 2026-04-26
---

# Shadowing and Observability (섀도잉 및 관측성)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "사용자 모르게 실제 트래픽의 복사본으로 모델의 담력을 시험(Shadowing)하고, 시스템 내부의 모든 신호를 투명하게 기록하여 장애의 징후를 선제적으로 포착하라" — 운영 환경에 영향을 주지 않는 안전한 테스트 기법과 시스템의 동작 상태를 정밀하게 파악하기 위한 관측 체계.

## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** "Risk-free Validation and Transparent Monitoring" — 새로운 모델이나 코드를 배포할 때 실제 트래픽을 병렬로 흘려보내 결과를 비교 검증하고, 메트릭/로그/트레이싱의 3대 요소를 결합해 장애의 원인을 즉각 규명하는 패턴.
- **핵심 요소:**
    - **Shadow Deployment:** 운영 서비스 결과는 무시하고 새 모델의 예측값만 기록하여 성능 비교. 리스크 없는 실전 테스트 가능.
    - **Observability (Three Pillars):**
        - **Metrics:** 수치화된 지표 (CPU 사용량, Latency 등).
        - **Logs:** 발생한 사건의 상세 기록.
        - **Tracing:** 서비스 간의 호출 경로 추적 (Distributed Tracing).
- **의의:** 복잡해진 마이크로서비스 환경에서 "무슨 일이 일어났는가"를 넘어 "왜 일어났는가"에 대한 답을 제공하며, 배포의 두려움을 데이터 기반의 확신으로 바꿈.

## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 단순히 서버가 죽었는지만 체크하던 '모니터링'의 시대를 지나, 이제는 분산 시스템 전체의 맥락을 이해하고 예상치 못한 문제(Unknown-Unknowns)를 탐사하는 '관측성' 중심의 엔지니어링으로 패러다임이 이동함.
- **정책 변화:** Antigravity 프로젝트는 에이전트의 답변 생성 모델 업데이트 시, 최소 24시간의 섀도잉 기간을 거쳐 기존 모델과의 응답 품질 차이를 정밀 분석한 후 최종 배포를 결정함.

## 🔗 지식 연결 (Graph)
- [[Scalability-in-AI-Systems]], [[Service-oriented-Architecture]], Reliability-Engineering, MLOps-Best-Practices
- **Raw Source:** 10_Wiki/Topics/AI/Shadowing-and-Observability.md