28 lines
1.7 KiB
Markdown
28 lines
1.7 KiB
Markdown
---
|
|
id: P-REINFORCE-AI-FAILABLE
|
|
category: "10_Wiki/💡 Topics/AI"
|
|
confidence_score: 0.98
|
|
tags: [Programming, Resilience, ErrorHandling, TaskManagement]
|
|
last_reinforced: 2026-04-20
|
|
---
|
|
|
|
# [[Failable-Task-Handling|Failable-Task-Handling]] (실패 가능 과업 처리)
|
|
|
|
## 📌 한 줄 통찰 (The Karpathy Summary)
|
|
> "실패는 사건이 아니라 시스템의 한 상태다." 네트워크 장애, 데드락 등으로 인해 실패할 수 있는 작업들을 회복 탄력적(Resilient)으로 처리하여 전체 시스템의 가용성을 유지하는 전략이다.
|
|
|
|
## 📖 구조화된 지식 (Synthesized Content)
|
|
- **Retry Strategy**:
|
|
- **Immediate Retry**: 즉시 재시도 (일시적 노이즈 해결).
|
|
- **Exponential Backoff**: 실패 횟수가 늘어날수록 재시도 간격을 늘려 대상 서버의 부하를 줄임.
|
|
- **Circuit Breaker**: 특정 임계치 이상 실패하면 아예 통로를 차단하고 즉시 에러를 리턴하여 연쇄 장애(Cascading Failure) 방지.
|
|
- **Dead Letter Queue (DLQ)**: 끝내 실패한 작업들은 별도의 보관소에 넣어 나중에 수동으로 분석/복구 가능케 함.
|
|
- **Compensating Transaction**: 실패 시 이전의 성공한 단계들을 거꾸로 되돌려(Saga Pattern) 무결성 유지.
|
|
|
|
## ⚠️ 모순 및 업데이트 (RL Update)
|
|
- 무분별한 재시도는 시스템의 '좀비 부하'를 유발한다. 실패의 유형을 '재시도 가능한(Transient)' 것과 '불가능한(Permanent)' 것으로 명확히 구분하는 로직이 핵심이며, 이를 위해 HTTP 상태 코드 등 표준 인터페이스를 적극 활용해야 한다.
|
|
|
|
## 🔗 지식 연결 (Graph)
|
|
- Related: Reliability-Patterns , [[Event-Driven-Architecture|Event-Driven-Architecture]]
|
|
- Pattern: Saga-Pattern
|