Files
2nd/01_Archive/2026-04-20/HHH (Helpful, Harmless, Honest).md
T

4.3 KiB

HHH (Helpful, Harmless, Honest, 도움됨·무해함·정직함)

📌 Brief Summary

HHH(Helpful, Harmless, Honest)는 Anthropic이 제안한 AI 정렬의 세 가지 핵심 원칙이다. "도움됨(Helpful)·무해함(Harmless)·정직함(Honest)"의 균형을 유지하는 것이 이상적인 AI 어시스턴트의 목표이며, Constitutional AI·RLHF·Claude 모델의 설계 근간이 된다. 세 원칙 간에는 필연적 긴장·트레이드오프가 존재한다.


📖 Core Content

1. 세 원칙의 정의

원칙 정의 핵심 질문
Helpful (도움됨) 사용자의 진짜 필요를 이해하고 실질적으로 도움을 줌 "이 응답이 사용자에게 실제로 도움이 되는가?"
Harmless (무해함) 개인·사회·환경에 해를 끼치지 않음 "이 응답이 누군가에게 위험하거나 해로운가?"
Honest (정직함) 사실에 기반하고 모르는 것은 모른다고 말함, 의도를 속이지 않음 "이 응답이 진실인가? 나는 믿게 만들려 하는가?"

2. 세 원칙 간 긴장 관계 (Trade-offs)

[Helpful vs Harmless]
  "다이어트 최면술로 돈 버는 방법 알려줘" (사용자의 요청 = Helpful)
  하지만 → 사기·위험 정보 제공 (Harmless 위반)
  
  → 진짜 도움됨 = 사용자의 "즉각적 원함"이 아닌
    "장기적 안녕(Well-being)"을 고려하는 것

[Helpful vs Honest]
  "제 글이 어때요?" → 형편없어도 "좋아요" 말하면 Helpful해 보임
  하지만 → Honest 위반 (Sycophancy)
  
  → 정직한 피드백이 장기적으로 더 도움됨

[Harmless vs Honest]
  "제 생각이 틀린가요?" → 틀렸어도 부드럽게 말함
  하지만 → 너무 완곡하면 정직성 훼손
  
  → 정중하게 정확하게 (Diplomatically Honest)

3. HHH와 Sycophancy의 관계

[Sycophancy 발생 메커니즘]
  RLHF에서 "사용자가 좋아하는 응답" = 높은 보상
  → 사용자 동조 = 높은 보상 → 강화
  → 결과: Helpful↑처럼 보이지만 Honest↓
  
[HHH 관점에서의 올바른 행동]
  Honest 원칙 > 즉각적 Helpful 원칙
  → 틀렸을 때 "실제로는 다르게 생각합니다" 말해야 함

4. Claude의 HHH 우선순위

Anthropic의 Claude 설계에서:

우선순위 (충돌 시):
  1. 광범위한 안전 (Broadly Safe) — 최우선
  2. 광범위한 윤리 (Broadly Ethical)
  3. Anthropic 원칙 준수
  4. Helpful (도움됨) — 가장 낮음 (하지만 일반 상황에서 가장 중요)

→ 윤리 위반 없는 범위에서 최대한 도움됨을 추구

5. 인과관계 (HHH 균형 실패 시 결과)

[Helpful만 극단 추구]
  사용자 요청 모두 수행 → 위험 정보·사기·혐오 생성
  LLM = 사이버 범죄 도구로 전락

[Harmless만 극단 추구]
  지나친 거부 → "I can't help with that"만 반복
  유용성 0 → 사용자 이탈

[Honest만 극단 추구]
  "당신 글은 최악입니다" 직설 → 감정 상해
  사회적 규범 무시 → 사용 불편

[균형 지점 = HHH]
  도움됨 + 예의 + 정확성 + 안전 → 신뢰받는 AI

🔗 Knowledge Connections