Files
2nd/10_Wiki/Topics/AI_and_ML/AI Safety & Constitutional AI.md
T

2.6 KiB


id: P-Reinforce-AUTO-SAFE-001 category: Unified confidence_score: 0.98 tags: [auto-reinforced, ai-safety, constitutional-ai, alignment, anthropic, ethics] last_reinforced: 2026-05-04

AI Safety & Constitutional AI

📌 한 줄 통찰 (The Karpathy Summary)

"양심을 가진 기계: 인간의 일일이 개입하는 잔소리 대신, '헌법'이라 불리는 핵심 원칙들을 모델 스스로 내면화하게 하여 유해성을 걸러내고 인류의 가치에 정렬시키는 시스템적 윤리 가드레일."

📖 구조화된 지식 (Synthesized Content)

AI 안전(Safety)은 모델이 인류에게 해를 끼치지 않도록 통제하는 기술이며, Constitutional AI(헌법적 AI)는 이를 실현하는 가장 진보된 방법론 중 하나입니다.

  1. Constitutional AI (앤스로픽):
    • 원리: 인간이 모든 답변을 평가하는 대신, 명문화된 '헌법(원칙)'을 제시하고 모델이 스스로 자신의 답변을 평가하고 수정(Self-critique)하게 합니다.
    • 단계: [AI 피드백 생성] \rightarrow [수정된 답변으로 학습(RLAIF)].
    • 효과: 맹목적으로 답변을 거부하는 것이 아니라, 맥락을 이해하며 유연하게 위험을 회피하고 환각 대신 불확실성을 인정하게 합니다.
  2. 핵심 안전 과제:
    • CBRN 방어: 화학(C), 생물(B), 방사능(R), 핵(N)과 관련된 위험 정보를 생성하지 않도록 정렬합니다.
    • 탈옥(Jailbreak) 방지: 악의적인 프롬프트 주입을 통해 안전 가이드라인을 무력화하려는 시도를 차단합니다.
    • Over-refusal 완화: 너무 조심스러워서 무해한 질문에도 답변을 거부하는 현상을 줄이는 것이 현대 안전 기술의 숙제입니다.
  3. RLAIF (RL from AI Feedback):
    • 인간 대신 다른 강력한 모델(Teacher model)의 피드백을 사용하여 효율적으로 대규모 모델을 정렬하는 기술입니다.

⚖️ Trade-offs & Caveats

  • 지능과 안전의 균형: 안전 가드레일이 너무 강하면 모델의 창의성이나 문제 해결 능력이 저하될 수 있습니다.
  • 가치 편향: '헌법'을 누가, 어떻게 정의하느냐에 따라 특정 문화나 정치적 가치관이 모델에 주입될 위험이 있습니다.

🔗 지식 연결 (Graph)


Last updated: 2026-05-04