--- id: P-REINFORCE-AUTO-SREE-001 category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 0.97 tags: [auto-reinforced, sre, site-reliability-engineering, devops, automation, error-budget, monitoring] last_reinforced: 2026-04-20 --- # [[SRE]] ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "μš΄μ˜μ— μ˜ν˜Όμ„ λΆˆμ–΄λ„£λŠ” μ½”λ”©: 'μ‹œμŠ€ν…œ μ’€ 잘 λŒμ•„κ°€κ²Œ 해봐'λΌλŠ” λ§‰μ—°ν•œ μš΄μ˜μ„ μ†Œν”„νŠΈμ›¨μ–΄ μ—”μ§€λ‹ˆμ–΄λ§ 문제둜 μΉ˜ν™˜ν•˜μ—¬, μž₯μ•  볡ꡬ뢀터 λ°°ν¬κΉŒμ§€ λͺ¨λ“  μ‚½μ§ˆμ„ μžλ™ν™” μ½”λ“œλ‘œ ν•΄κ²°ν•˜λŠ” ꡬ글식 무정지 운영 μ² ν•™." ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) μ‚¬μ΄νŠΈ μ‹ λ’°μ„± μ—”μ§€λ‹ˆμ–΄λ§(Site-Reliability-Engineering, SRE)은 μ†Œν”„νŠΈμ›¨μ–΄ μ—”μ§€λ‹ˆμ–΄λ§ 방법둠을 IT μš΄μ˜μ— μ μš©ν•œ λΆ„μ•Όμž…λ‹ˆλ‹€. 1. **3λŒ€ 핡심 μ§€ν‘œ**: * **SLI (Service Level Indicator)**: 성곡λ₯ , μ§€μ—° μ‹œκ°„ λ“± μΈ‘μ • κ°€λŠ₯ν•œ 수치. * **SLO (Service Level Objective)**: "99.9% μ„±κ³΅ν•˜μž" 같은 ꡬ체적 λͺ©ν‘œκ°’. (Quality-Control와 μ—°κ²°) * **Error Budget**: SLOλ₯Ό λ‹¬μ„±ν•˜κ³  남은 'μ‹€νŒ¨ν•΄λ„ λ˜λŠ” μ—¬μœ λΆ„'. (이 μ˜ˆμ‚° λ‚΄μ—μ„œ λ¬΄λ¦¬ν•œ ν˜μ‹  μ‹œλ„ κ°€λŠ₯). 2. **μ™œ μ€‘μš”ν•œκ°€?**: * 개발(속도)κ³Ό 운영(μ•ˆμ •)이 μ‹Έμš°μ§€ μ•Šκ²Œ '데이터'둜 μ€‘μž¬ν•˜λ©°, μ‚¬λžŒμ΄ μž μžλŠ” λ™μ•ˆμ—λ„ μ½”λ“œκ°€ 슀슀둜 μ‹œμŠ€ν…œμ„ 고치게 λ§Œλ“€κΈ° λ•Œλ¬Έμž„. (Efficiency와 Reliability의 ν•©μ˜) ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌**: κ³Όκ±°μ—λŠ” μž₯μ• κ°€ 0이어야 ν•œλ‹€λŠ” '결벽증 μ •μ±…'μ΄μ—ˆμœΌλ‚˜, SRE 정책은 "μž₯μ• λŠ” λ°˜λ“œμ‹œ λ‚œλ‹€"λŠ” μ „μ œ μ •μ±… ν•˜μ— 'μ–Όλ§ˆλ‚˜ 빨리 볡ꡬ할 것인가'와 'μ–΄λŠ μ •λ„μ˜ μ‹€νŒ¨ μ •μ±…(Error budget)을 ν—ˆμš©ν•  것인가'λΌλŠ” μ‹€μš©μ  μ •μ±…μœΌλ‘œ μ „ν™˜ν•¨(RL Update). - **μ •μ±… λ³€ν™”(RL Update)**: μ΄μ œλŠ” λ‹¨μˆœ μžλ™ν™” 정책을 λ„˜μ–΄ AIκ°€ 둜그 정책을 읽고 μž₯μ•  μ§•ν›„ 정책을 5λΆ„ 전에 감지해 미리 λ°©μ–΄ν•˜λŠ” 'AIOps 기반 SRE μ •μ±…'이 μ‹€ν˜„λ˜κ³  있음. ## πŸ”— 지식 μ—°κ²° (Graph) - [[Quality-Control]], [[Efficiency]], [[Reliability]], [[Standard-Operating-Procedure]], [[Management]] - **Modern Tech/Tools**: Prometheus, Grafana, Terraform, Ansible, Kubernetes. ---