Files
2nd/10_Wiki/Topics/Fault-Tolerance.md
T

2.3 KiB


id: P-Reinforce-AUTO-FATO-001 category: Dev confidence_score: 0.96 tags: [auto-reinforced, fault-tolerance, Reliability, Distributed-Systems, redundancy, Resilience] last_reinforced: 2026-04-20

Fault-Tolerance

📌 한 줄 통찰 (The Karpathy Summary)

"중단 없는 강인함: 시스템의 일부 구성 요소에 고장이 나더라도, 서비스 전체가 멈추지 않고(Graceful Degradation) 자동으로 복구되거나 예비 자원을 가동하여 임무를 완수하게 만드는 신뢰성 설계의 핵심."

📖 구조화된 지식 (Synthesized Content)

결함 내성(Fault-Tolerance)은 시스템 내부 오류에도 불구하고 정상적인 운영을 지속하는 능력을 의미합니다.

  1. 구현 기법:
    • Redundancy (중복성): 동일한 기능을 하는 장치를 여러 개 두어 하나가 고장 나면 교체 (데이터 복제 등).
    • Checkpointing: 현재 상태를 주기적으로 저장하여 에러 시 마지막 정상 지점부터 재시작.
    • Replication: 분산 노드들에 데이터를 복사해두기. (Distributed-Systems와 연결)
  2. 왜 중요한가?:
    • 단 1초의 중단이 막대한 손실을 입히는 금융, 원자력, 우주 항공, 그리고 거대 서비스 인프라의 생명줄과 같음.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

  • 과거 데이터와의 충돌: 과거에는 고장이 안 나도록 '부품을 비싸고 튼튼하게 만드는 정책' 위주였으나, 현대 정책은 '부품은 반드시 고장 난다는 전제하에 시스템 구조로 해결하는 정책(Software-defined resilience)'으로 전환됨(RL Update).
  • 정책 변화(RL Update): AI 모델 추론 정책에서도 특정 노드나 연산 장치에 오류가 발생했을 때 이를 우회하여 정답을 도출하는 '강건한 신경망 추론 정책' 연구가 활발함. (Chaos Engineering과 연결)

🔗 지식 연결 (Graph)