29 lines
1.7 KiB
Markdown
29 lines
1.7 KiB
Markdown
---
|
|
id: P-REINFORCE-AI-HITL
|
|
category: "10_Wiki/💡 Topics/AI"
|
|
confidence_score: 0.99
|
|
tags: [AI, HITL, AISafety, Collaboration]
|
|
last_reinforced: 2026-04-20
|
|
---
|
|
|
|
# [[Human-in-the-loop (HITL)]] (인간 개입형 시스템)
|
|
|
|
## 📌 한 줄 통찰 (The Karpathy Summary)
|
|
> "AI의 자율성과 인간의 판단력이 만나는 가장 안전한 지점." AI가 100% 결정을 내리는 것이 아니라, 중요한 판단이나 모호한 상황에서 인간이 루프(Loop)에 개입하여 정확도를 높이고 윤리적 책임을 지는 구조다.
|
|
|
|
## 📖 구조화된 지식 (Synthesized Content)
|
|
- **Why HITL?**: AI는 확률에 기반하므로 '엣지 케이스'에서 치명적인 실수를 할 수 있다. 인간은 맥락과 도덕적 가치를 판단하여 이를 보완한다.
|
|
- **Workflow**:
|
|
- AI가 초안/예측 생성 -> 인간이 검토 및 수정(Verification) -> 수정된 데이터가 다시 AI 학습에 사용(Active Learning).
|
|
- **Core Benefit**:
|
|
- **Reliability**: 실시간 사고 방지.
|
|
- **Continuous Improvement**: 고품질 정답지(Ground Truth)를 인간이 제공하여 성능 가속화.
|
|
- **Domain**: 의료 진단 보조, 자율주행 모니터링, 콘텐츠 모더레이션.
|
|
|
|
## ⚠️ 모순 및 업데이트 (RL Update)
|
|
- 인간이 루프에 끼어들면 시스템의 스케일링(속도)이 급격히 떨어진다. 이를 해결하기 위해 '모든 작업 감시'에서 '불확실성이 높은 작업만 호출'하는 방식으로 인간의 개입을 최적화하는 연구가 중요하다. 또한 인간 관리자도 피로로 인해 오판할 수 있음을 고려해야 한다.
|
|
|
|
## 🔗 지식 연결 (Graph)
|
|
- Related: Active-Learning , RLHF (인간 피드백 기반 강화학습)
|
|
- Strategy: Red-Teaming
|