2.5 KiB
2.5 KiB
id, category, confidence_score, tags, last_reinforced
| id | category | confidence_score | tags | last_reinforced | |||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| SYS-OBS-001 | Dev | 1.0 |
|
2026-04-26 |
Shadowing and Observability (섀도잉 및 관측성)
📌 한 줄 통찰 (The Karpathy Summary)
"사용자 모르게 실제 트래픽의 복사본으로 모델의 담력을 시험(Shadowing)하고, 시스템 내부의 모든 신호를 투명하게 기록하여 장애의 징후를 선제적으로 포착하라" — 운영 환경에 영향을 주지 않는 안전한 테스트 기법과 시스템의 동작 상태를 정밀하게 파악하기 위한 관측 체계.
📖 구조화된 지식 (Synthesized Content)
- 추출된 패턴: "Risk-free Validation and Transparent Monitoring" — 새로운 모델이나 코드를 배포할 때 실제 트래픽을 병렬로 흘려보내 결과를 비교 검증하고, 메트릭/로그/트레이싱의 3대 요소를 결합해 장애의 원인을 즉각 규명하는 패턴.
- 핵심 요소:
- Shadow Deployment: 운영 서비스 결과는 무시하고 새 모델의 예측값만 기록하여 성능 비교. 리스크 없는 실전 테스트 가능.
- Observability (Three Pillars):
- Metrics: 수치화된 지표 (CPU 사용량, Latency 등).
- Logs: 발생한 사건의 상세 기록.
- Tracing: 서비스 간의 호출 경로 추적 (Distributed Tracing).
- 의의: 복잡해진 마이크로서비스 환경에서 "무슨 일이 일어났는가"를 넘어 "왜 일어났는가"에 대한 답을 제공하며, 배포의 두려움을 데이터 기반의 확신으로 바꿈.
⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- 과거 데이터와의 충돌: 단순히 서버가 죽었는지만 체크하던 '모니터링'의 시대를 지나, 이제는 분산 시스템 전체의 맥락을 이해하고 예상치 못한 문제(Unknown-Unknowns)를 탐사하는 '관측성' 중심의 엔지니어링으로 패러다임이 이동함.
- 정책 변화: Antigravity 프로젝트는 에이전트의 답변 생성 모델 업데이트 시, 최소 24시간의 섀도잉 기간을 거쳐 기존 모델과의 응답 품질 차이를 정밀 분석한 후 최종 배포를 결정함.
🔗 지식 연결 (Graph)
- Scalability-in-AI-Systems, Service-oriented-Architecture, Reliability-Engineering, MLOps-Best-Practices
- Raw Source: 10_Wiki/Topics/AI/Shadowing-and-Observability.md