---
id: [[P-Reinforce|P-Reinforce]]-AI-FAILABLE
category: Dev
confidence_score: 0.98
tags: [Programming, [[Resilience|Resilience]], ErrorHandling, Task[[Management|Management]]]
last_reinforced: 2026-04-20
---

# [[Failable-Task-Handling|Failable-Task-Handling]] (실패 가능 과업 처리)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "실패는 사건이 아니라 시스템의 한 상태다." 네트워크 장애, 데드락 등으로 인해 실패할 수 있는 작업들을 회복 탄력적(Resilient)으로 처리하여 전체 시스템의 가용성을 유지하는 전략이다.

## 📖 구조화된 지식 (Synthesized Content)
- **Retry [[Strategy|Strategy]]**:
    - **Immediate Retry**: 즉시 재시도 (일시적 노이즈 해결).
    - **Exponential Backoff**: 실패 횟수가 늘어날수록 재시도 간격을 늘려 대상 서버의 부하를 줄임.
- **Circuit Breaker**: 특정 임계치 이상 실패하면 아예 통로를 차단하고 즉시 에러를 리턴하여 연쇄 장애(Cascading Failure) 방지.
- **Dead Letter Queue (DLQ)**: 끝내 실패한 작업들은 별도의 보관소에 넣어 나중에 수동으로 분석/복구 가능케 함.
- **Compensating Transaction**: 실패 시 이전의 성공한 단계들을 거꾸로 되돌려(Saga Pattern) 무결성 유지.

## ⚠️ 모순 및 업데이트 (RL Update)
- 무분별한 재시도는 시스템의 '좀비 부하'를 유발한다. 실패의 유형을 '재시도 가능한(Transient)' 것과 '불가능한(Permanent)' 것으로 명확히 구분하는 로직이 핵심이며, 이를 위해 HTTP 상태 코드 등 표준 인터페이스를 적극 활용해야 한다.

## 🔗 지식 연결 (Graph)
- Related: [[Reliability|Reliability]]-Patterns , [[Event-Driven-Architecture|Event-Driven-Architecture]]
- Pattern: Saga-Pattern