Files
2nd/01_Archive/2026-04-20/HHH (Helpful, Harmless, Honest).md

106 lines
4.3 KiB
Markdown

HHH (Helpful, Harmless, Honest, 도움됨·무해함·정직함)
📌 Brief Summary
HHH(Helpful, Harmless, Honest)는 Anthropic이 제안한 AI 정렬의 세 가지 핵심 원칙이다. "도움됨(Helpful)·무해함(Harmless)·정직함(Honest)"의 균형을 유지하는 것이 이상적인 AI 어시스턴트의 목표이며, Constitutional AI·RLHF·Claude 모델의 설계 근간이 된다. 세 원칙 간에는 필연적 긴장·트레이드오프가 존재한다.
---
📖 Core Content
## 1. 세 원칙의 정의
| 원칙 | 정의 | 핵심 질문 |
|------|------|---------|
| **Helpful (도움됨)** | 사용자의 진짜 필요를 이해하고 실질적으로 도움을 줌 | "이 응답이 사용자에게 실제로 도움이 되는가?" |
| **Harmless (무해함)** | 개인·사회·환경에 해를 끼치지 않음 | "이 응답이 누군가에게 위험하거나 해로운가?" |
| **Honest (정직함)** | 사실에 기반하고 모르는 것은 모른다고 말함, 의도를 속이지 않음 | "이 응답이 진실인가? 나는 믿게 만들려 하는가?" |
---
## 2. 세 원칙 간 긴장 관계 (Trade-offs)
```
[Helpful vs Harmless]
"다이어트 최면술로 돈 버는 방법 알려줘" (사용자의 요청 = Helpful)
하지만 → 사기·위험 정보 제공 (Harmless 위반)
→ 진짜 도움됨 = 사용자의 "즉각적 원함"이 아닌
"장기적 안녕(Well-being)"을 고려하는 것
[Helpful vs Honest]
"제 글이 어때요?" → 형편없어도 "좋아요" 말하면 Helpful해 보임
하지만 → Honest 위반 (Sycophancy)
→ 정직한 피드백이 장기적으로 더 도움됨
[Harmless vs Honest]
"제 생각이 틀린가요?" → 틀렸어도 부드럽게 말함
하지만 → 너무 완곡하면 정직성 훼손
→ 정중하게 정확하게 (Diplomatically Honest)
```
---
## 3. HHH와 Sycophancy의 관계
```
[Sycophancy 발생 메커니즘]
RLHF에서 "사용자가 좋아하는 응답" = 높은 보상
→ 사용자 동조 = 높은 보상 → 강화
→ 결과: Helpful↑처럼 보이지만 Honest↓
[HHH 관점에서의 올바른 행동]
Honest 원칙 > 즉각적 Helpful 원칙
→ 틀렸을 때 "실제로는 다르게 생각합니다" 말해야 함
```
---
## 4. Claude의 HHH 우선순위
Anthropic의 Claude 설계에서:
```
우선순위 (충돌 시):
1. 광범위한 안전 (Broadly Safe) — 최우선
2. 광범위한 윤리 (Broadly Ethical)
3. Anthropic 원칙 준수
4. Helpful (도움됨) — 가장 낮음 (하지만 일반 상황에서 가장 중요)
→ 윤리 위반 없는 범위에서 최대한 도움됨을 추구
```
---
## 5. 인과관계 (HHH 균형 실패 시 결과)
```
[Helpful만 극단 추구]
사용자 요청 모두 수행 → 위험 정보·사기·혐오 생성
LLM = 사이버 범죄 도구로 전락
[Harmless만 극단 추구]
지나친 거부 → "I can't help with that"만 반복
유용성 0 → 사용자 이탈
[Honest만 극단 추구]
"당신 글은 최악입니다" 직설 → 감정 상해
사회적 규범 무시 → 사용 불편
[균형 지점 = HHH]
도움됨 + 예의 + 정확성 + 안전 → 신뢰받는 AI
```
---
🔗 Knowledge Connections
- **Related Topics:** [[LLM Alignment (LLM 정렬)|LLM Alignment (LLM 정렬)]], [[Constitutional AI (헌법 AI)|Constitutional AI (헌법 AI)]], [[Sycophancy (LLM 아첨 문제)|Sycophancy (LLM 아첨 문제)]], [[RLHF (인간 피드백 기반 강화학습)|RLHF (인간 피드백 기반 강화학습)]], [[Reward Hacking (보상 해킹)|Reward Hacking (보상 해킹)]], [[AI Safety (AI 안전)|AI Safety (AI 안전)]], [[RLAIF (AI 피드백 기반 강화학습)|RLAIF (AI 피드백 기반 강화학습)]]
- **Projects/Contexts:** AI 신뢰성·투명성
- **Contradictions/Notes:**
- HHH 세 원칙의 균형점은 맥락(사용자·문화·상황)에 따라 다름 → 절대적 공식 없음.
- "도움됨"이 모든 상황에서 가장 낮은 우선순위를 갖는다는 설계는 → 일부 사용자에게 과도한 거부로 느껴짐 (Too Cautious 문제).
- **신규 키워드**: `Broadly Safe`, `윤리적 AI 설계`, `Model Spec` → 탐색 큐 추가.