---
id: [[P-Reinforce|P-Reinforce]]-AUTO-SAFE-001
category: Unified
confidence_score: 0.98
tags: [auto-reinforced, ai-safety, constitutional-ai, alignment, anthropic, ethics]
last_reinforced: 2026-05-04
---

# [[AI Safety & Constitutional AI|AI Safety & Constitutional AI]]

## 📌 한 줄 통찰 (The Karpathy Summary)
> "양심을 가진 기계: 인간의 일일이 개입하는 잔소리 대신, '헌법'이라 불리는 핵심 원칙들을 모델 스스로 내면화하게 하여 유해성을 걸러내고 인류의 가치에 정렬시키는 시스템적 윤리 가드레일."

## 📖 구조화된 지식 (Synthesized Content)
AI 안전(Safety)은 모델이 인류에게 해를 끼치지 않도록 통제하는 기술이며, Constitutional AI(헌법적 AI)는 이를 실현하는 가장 진보된 방법론 중 하나입니다.

1.  **Constitutional AI (앤스로픽)**:
    *   **원리**: 인간이 모든 답변을 평가하는 대신, 명문화된 '헌법(원칙)'을 제시하고 모델이 스스로 자신의 답변을 평가하고 수정(Self-critique)하게 합니다.
    *   **단계**: [AI 피드백 생성] $\rightarrow$ [수정된 답변으로 학습(RLAIF)].
    *   **효과**: 맹목적으로 답변을 거부하는 것이 아니라, 맥락을 이해하며 유연하게 위험을 회피하고 환각 대신 불확실성을 인정하게 합니다.
2.  **핵심 안전 과제**:
    *   **CBRN 방어**: 화학(C), 생물(B), 방사능(R), 핵(N)과 관련된 위험 정보를 생성하지 않도록 정렬합니다.
    *   **탈옥(Jailbreak) 방지**: 악의적인 프롬프트 주입을 통해 안전 가이드라인을 무력화하려는 시도를 차단합니다.
    *   **Over-refusal 완화**: 너무 조심스러워서 무해한 질문에도 답변을 거부하는 현상을 줄이는 것이 현대 안전 기술의 숙제입니다.
3.  **RLAIF (RL from AI Feedback)**:
    *   인간 대신 다른 강력한 모델(Teacher model)의 피드백을 사용하여 효율적으로 대규모 모델을 정렬하는 기술입니다.

## ⚖️ Trade-offs & Caveats
*   **지능과 안전의 균형**: 안전 가드레일이 너무 강하면 모델의 창의성이나 문제 해결 능력이 저하될 수 있습니다.
*   **가치 편향**: '헌법'을 누가, 어떻게 정의하느냐에 따라 특정 문화나 정치적 가치관이 모델에 주입될 위험이 있습니다.

## 🔗 지식 연결 (Graph)
*   **상위 개념**: [[AI Governance|AI Governance]], [[Alignment|Alignment]]
*   **관련 모델**: [[Claude|Claude]] (헌법적 AI의 선구자)
*   **연관 기술**: [[RLHF & DPO|RLHF & DPO]], [[Prompt Injection|Prompt Injection]]

---
*Last updated: 2026-05-04*