"매 reliability 의 feature 의 — 매 first feature 의". SRE (Site Reliability Engineering) 의 Google-originated discipline 의 software engineering 의 ops 의 applying. 핵심: SLOs 의 define, error budgets 의 enforce, toil 의 eliminate, blameless postmortems.
매 핵심
매 SRE 의 핵심 의 concepts
SLI: 매 measurement (e.g., 200-OK rate over 5min).
SLO: 매 target (e.g., 99.9% over 28d rolling).
SLA: 매 customer contract (with $ penalty).
Error budget: 매 100% - SLO. 매 budget 의 burn 시 release freeze.
언제: postmortem drafting from timeline, log anomaly summarization, runbook generation, oncall question answering.
언제 X: auto-remediation 의 LLM-only — 매 hallucinated kubectl 의 prod 의 destroy.
❌ 안티패턴
No SLO: 매 alert noise — 매 every blip 의 page.
100% uptime goal: 매 unattainable, 매 budget 0 = no innovation.
Blame culture: postmortem 의 finger-pointing — engineers 의 hide incidents.
Toil unbounded: SREs 의 burned out — quit within 12mo.