--- id: [[P-Reinforce|P-Reinforce]]-AI-FAILABLE category: Dev confidence_score: 0.98 tags: [Programming, [[Resilience|Resilience]], ErrorHandling, Task[[Management|Management]]] last_reinforced: 2026-04-20 --- # [[Failable-Task-Handling|Failable-Task-Handling]] (실패 가능 과업 처리) ## 📌 한 줄 통찰 (The Karpathy Summary) > "실패는 사건이 아니라 시스템의 한 상태다." 네트워크 장애, 데드락 등으로 인해 실패할 수 있는 작업들을 회복 탄력적(Resilient)으로 처리하여 전체 시스템의 가용성을 유지하는 전략이다. ## 📖 구조화된 지식 (Synthesized Content) - **Retry [[Strategy|Strategy]]**: - **Immediate Retry**: 즉시 재시도 (일시적 노이즈 해결). - **Exponential Backoff**: 실패 횟수가 늘어날수록 재시도 간격을 늘려 대상 서버의 부하를 줄임. - **Circuit Breaker**: 특정 임계치 이상 실패하면 아예 통로를 차단하고 즉시 에러를 리턴하여 연쇄 장애(Cascading Failure) 방지. - **Dead Letter Queue (DLQ)**: 끝내 실패한 작업들은 별도의 보관소에 넣어 나중에 수동으로 분석/복구 가능케 함. - **Compensating Transaction**: 실패 시 이전의 성공한 단계들을 거꾸로 되돌려(Saga Pattern) 무결성 유지. ## ⚠️ 모순 및 업데이트 (RL Update) - 무분별한 재시도는 시스템의 '좀비 부하'를 유발한다. 실패의 유형을 '재시도 가능한(Transient)' 것과 '불가능한(Permanent)' 것으로 명확히 구분하는 로직이 핵심이며, 이를 위해 HTTP 상태 코드 등 표준 인터페이스를 적극 활용해야 한다. ## 🔗 지식 연결 (Graph) - Related: [[Reliability|Reliability]]-Patterns , [[Event-Driven-Architecture|Event-Driven-Architecture]] - Pattern: Saga-Pattern