2nd/10_Wiki/Topics/SPOF.md

---
id: [[P-Reinforce|P-Reinforce]]-AUTO-SPOF-001
category: Dev
confidence_score: 0.98
tags: [auto-reinforced, spof, single-point-of-failure, [[Reliability|Reliability]], redundancy, risk-[[Management|Management]], [[Architecture|Architecture]]]
last_reinforced: 2026-04-20
---

# [[SPOF|SPOF]]

## 📌 한 줄 통찰 (The Karpathy Summary)
> "시스템의 아킬레스건: 그 하나만 고장 나면 전체 시스템이 마비되는 치명적인 급소이자, '효율성'이라는 미명 아래 예비 장치(Redundancy)를 제거했을 때 남게 되는 비즈니스의 시한폭탄."

## 📖 구조화된 지식 (Synthesized Content)
단일 장애점(Single-Point-of-Failure, SPOF)은 시스템 구성 요소 중 하나라도 실패할 경우 전체 시스템이 중단되는 지점을 의미합니다.

1.  **제거 전략 (Redundancy)**:
    *   **Dualism**: 핵심 서버나 데이터베이스를 두 개 이상 운영 (Active-Standby). (Reliability와 연결)
    *   **Diversification**: 특정 벤더(AWS, Cloudflare 등)에만 의존하지 않고 멀티 클라우드 사용.
    *   **Decentralization**: 중앙 집중적 의사결정 구조를 분산하여 한 명의 컨디션에 프로젝트가 휘둘리지 않게 함. (Management와 연결)
2.  **왜 중요한가?**:
    *   성능이 100점이라도 가동률(Uptime)이 0이 되면 가치는 0이며, SPOF 제거는 시스템의 '존재 이유'를 지키는 최후의 보루이기 때문임.

## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌**: 과거에는 비용 절감 정책([[Efficiency|Efficiency]])을 위해 SPOF를 묵인하기도 했으나, 현대 정책은 장애 한 번의 사회적/경제적 비용 정책이 너무 커짐에 따라 '비용보다 안전 정책'을 우선하는 무정지 설계 정책이 상식이 됨(RL Update).
- **정책 변화(RL Update)**: 본 조직에서도 특정 팀장(예: 빌드업 팀장)이 자리를 비운다고 전체 프로젝트가 멈추지 않도록, 모든 프로세스 정책을 기록(SOP)하고 공유하는 것 자체가 지식 생산의 SPOF 제거 정책임. (Standard-Operating-Procedure와 연결)

## 🔗 지식 연결 (Graph)
- [[Reliability|Reliability]], [[Management|Management]], [[Standard-Operating-Procedure|Standard-Operating-Procedure]], [[Risk-Management|Risk-Management]], [[Efficiency|Efficiency]], [[SRE|SRE]]
- **Modern Tech/Tools**: Load balancers, High Availability (HA) clusters, Multi-regional deployment.
---