Files
2nd/10_Wiki/Topics/AI/Shadowing-and-Observability.md
T

2.5 KiB

id, category, confidence_score, tags, last_reinforced
id category confidence_score tags last_reinforced
SYS-OBS-001 10_Wiki/💡 Topics/AI 1.0
systems
observability
shadowing
monitoring
mlops
distributed-tracing
reliability
2026-04-26

Shadowing and Observability (섀도잉 및 관측성)

📌 한 줄 통찰 (The Karpathy Summary)

"사용자 모르게 실제 트래픽의 복사본으로 모델의 담력을 시험(Shadowing)하고, 시스템 내부의 모든 신호를 투명하게 기록하여 장애의 징후를 선제적으로 포착하라" — 운영 환경에 영향을 주지 않는 안전한 테스트 기법과 시스템의 동작 상태를 정밀하게 파악하기 위한 관측 체계.

📖 구조화된 지식 (Synthesized Content)

  • 추출된 패턴: "Risk-free Validation and Transparent Monitoring" — 새로운 모델이나 코드를 배포할 때 실제 트래픽을 병렬로 흘려보내 결과를 비교 검증하고, 메트릭/로그/트레이싱의 3대 요소를 결합해 장애의 원인을 즉각 규명하는 패턴.
  • 핵심 요소:
    • Shadow Deployment: 운영 서비스 결과는 무시하고 새 모델의 예측값만 기록하여 성능 비교. 리스크 없는 실전 테스트 가능.
    • Observability (Three Pillars):
      • Metrics: 수치화된 지표 (CPU 사용량, Latency 등).
      • Logs: 발생한 사건의 상세 기록.
      • Tracing: 서비스 간의 호출 경로 추적 (Distributed Tracing).
  • 의의: 복잡해진 마이크로서비스 환경에서 "무슨 일이 일어났는가"를 넘어 "왜 일어났는가"에 대한 답을 제공하며, 배포의 두려움을 데이터 기반의 확신으로 바꿈.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

  • 과거 데이터와의 충돌: 단순히 서버가 죽었는지만 체크하던 '모니터링'의 시대를 지나, 이제는 분산 시스템 전체의 맥락을 이해하고 예상치 못한 문제(Unknown-Unknowns)를 탐사하는 '관측성' 중심의 엔지니어링으로 패러다임이 이동함.
  • 정책 변화: Antigravity 프로젝트는 에이전트의 답변 생성 모델 업데이트 시, 최소 24시간의 섀도잉 기간을 거쳐 기존 모델과의 응답 품질 차이를 정밀 분석한 후 최종 배포를 결정함.

🔗 지식 연결 (Graph)