feat: Wiki 지식 자산 업데이트 - UX Scenarios, Frontend, Game Design, Topics 추가 [2026-05-08]

This commit is contained in:
2026-05-08 19:52:07 +09:00
parent 9dd3d40662
commit 5ba5a55c78
3984 changed files with 334557 additions and 28839 deletions
+69 -7
View File
@@ -1,20 +1,33 @@
---
category: Unified
id: wiki-2026-0508-fault-tolerance
title: Fault Tolerance
category: 10_Wiki/Topics
status: needs_review
canonical_id: self
aliases: []
duplicate_of: none
source_trust_level: A
confidence_score: 0.92
tags: [auto-consolidated, technical-documentation]
title: [[Fault-Tolerance|Fault-Tolerance]]
last_updated: 2026-05-02
raw_sources: []
last_reinforced: 2026-05-08
github_commit: pending
inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08)
tech_stack:
language: unspecified
framework: unspecified
---
# [[Fault-Tolerance|Fault-Tolerance]]
## 📌 Brief Summary
## 📌 한 줄 통찰 (The Karpathy Summary)
> "중단 없는 강인함: 시스템의 일부 구성 요소에 고장이 나더라도, 서비스 전체가 멈추지 않고(Graceful Degradation) 자동으로 복구되거나 예비 자원을 가동하여 임무를 완수하게 만드는 신뢰성 설계의 핵심."
---
내결함성(Fault Tolerance)은 분산 시스템 내 특정 컴포넌트에 장애가 발생하더라도 전체 시스템이 중단 없이 정상적으로 작동을 계속할 수 있도록 보장하는 핵심 아키텍처 특성입니다 [1, 2]. 단일 장애점(SPOF)을 제거하고, 독립된 서비스 간의 장애가 연쇄적으로 파급되는 것을 막는 '장애 격리(Fault isolation)' 메커니즘이 근간을 이룹니다 [1-3]. 주로 마이크로서비스, 이벤트 기반 아키텍처, P2P, 공간 기반 아키텍처 등의 분산 패턴에서 시스템의 신뢰성과 회복 탄력성을 극대화하기 위해 필수적으로 설계에 반영됩니다 [4-6].
## 📖 Core Content
## 📖 구조화된 지식 (Synthesized Content)
결함 내성(Fault-Tolerance)은 시스템 내부 오류에도 불구하고 정상적인 운영을 지속하는 능력을 의미합니다.
1. **구현 기법**:
@@ -37,7 +50,7 @@ last_updated: 2026-05-02
* **P2P (Peer-to-Peer) 아키텍처:** 중앙 통제 서버 없이 모든 노드가 자원을 분산 처리하기 때문에 단일 장애점(SPOF)이 없으며, 일부 피어 연결이 끊겨도 네트워크 기능이 중단되지 않는 회복 탄력성을 자랑합니다 [15-17].
* **서버리스 아키텍처 (Serverless):** 기본 인프라 관리를 클라우드 제공자에게 위임함으로써, 클라우드 연결성에 힘입어 내결함성이 내장된(built-in) 애플리케이션을 배포할 수 있습니다 [18-20].
## Trade-offs & Caveats
## 모순 및 업데이트 (Contradictions & Updates)
- **과거 데이터와의 충돌**: 과거에는 고장이 안 나도록 '부품을 비싸고 튼튼하게 만드는 정책' 위주였으나, 현대 정책은 '부품은 반드시 고장 난다는 전제하에 시스템 구조로 해결하는 정책(Software-defined resilience)'으로 전환됨(RL Update).
- **정책 변화(RL Update)**: AI 모델 추론 정책에서도 특정 노드나 연산 장치에 오류가 발생했을 때 이를 우회하여 정답을 도출하는 '강건한 신경망 추론 정책' 연구가 활발함. (Chaos Engineering과 연결)
@@ -48,7 +61,7 @@ last_updated: 2026-05-02
* **데이터 손실 방지를 위한 오버헤드:** 시스템 중단 시 이벤트 데이터가 손실되지 않도록 전송 중인 이벤트를 유지하고, 다음 컴포넌트의 수신 확인이 완료된 후에만 큐에서 제거하는 '클라이언트 확인 모드' 등을 구현해야 하므로 시스템 운영 오버헤드와 레이턴시가 발생할 수 있습니다 [23, 26].
* **운영 복잡성:** 내결함성을 위해 각 서비스별 데이터베이스를 격리하고 수많은 독립 모듈을 분산시켜 배포하게 되면, 서킷 브레이커 설정(실패 임계값, 타임아웃 등)의 미세 조정이 필요하고 인프라 관리 및 모니터링 난이도가 급격히 상승합니다 [27-30].
## 🔗 Knowledge Connections
## 🔗 지식 연결 (Graph)
- [[Distributed-Systems|Distributed-Systems]], [[Scalability|Scalability]], [[Technical-Architecture|Technical-Architecture]], [[Quality Gates|Quality Gates]], Monitoring
- **Modern Tech/Tools**: Raid, Kubernetes (Self-healing), Netflix Chaos Monkey, Kafka replication.
---
@@ -100,3 +113,52 @@ last_updated: 2026-05-02
---
*Last updated: 2026-05-02*
## 🤖 LLM 활용 힌트 (How to Use This Knowledge)
**언제 이 지식을 쓰는가:**
- *(TODO)*
**언제 쓰면 안 되는가:**
- *(TODO)*
## 🧪 검증 상태 (Validation)
- **정보 상태:** needs_review
- **출처 신뢰도:** A
- **검토 이유:** *(P-Reinforce Phase 1 자동 정규화. 본문 검증 필요.)*
## 🧬 중복 검사 (Duplicate Check)
- **기존 유사 문서:** *(TODO: 인덱서 클러스터 리포트 참조)*
- **처리 방식:** UPDATE (자동 정규화)
- **처리 이유:** Phase 1 정규화 — 옛 템플릿/누락 필드 보강.
## 🕓 변경 이력 (Changelog)
| 날짜 | 변경 내용 | 처리 방식 | 신뢰도 |
|------|-----------|-----------|--------|
| 2026-05-08 | P-Reinforce Phase 1 정규화 (frontmatter + 헤더 표준화) | UPDATE | A |
## 💻 코드 패턴 (Code Patterns)
**패턴 1:** *(TODO: 이 프로젝트 컨벤션 반영한 구조 스켈레톤)*
```text
# TODO
```
## 🤔 의사결정 기준 (Decision Criteria)
**선택 A를 써야 할 때:**
- *(TODO)*
**선택 B를 써야 할 때:**
- *(TODO)*
**기본값:**
> *(TODO)*
## ❌ 안티패턴 (Anti-Patterns)
- **[안티패턴]:** *(TODO: 무엇을 하면 안 되는가 + 이유 + 대신 무엇을)*