2nd/10_Wiki/Topics_Blog/Constitutional-AI.md

---
id: CONST-AI-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 1.0
tags: [ai-safety, constitutional-ai, rlaif, alignment, ethics]
last_reinforced: 2026-04-26
---

# Constitutional AI (헌법적 AI)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "인간의 피드백 대신, AI에게 명문화된 헌법을 가르쳐 스스로 정렬하게 하라" — Anthropic이 제안한 방식으로, AI 모델에게 일련의 원칙(헌법)을 제공하고, 모델이 자신의 답변을 이 원칙에 따라 스스로 비판하고 수정하도록 학습시키는 정렬 기법.

## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** 대규모의 인간 피드백(RLHF) 비용을 줄이면서도, 명확한 가이드라인에 따라 모델의 가치관을 일관되게 고정하는 자가 정렬(Self-alignment) 패턴.
- **작동 과정 (RLAIF: RL from AI Feedback):**
    - **Supervised Stage:** 모델이 초안을 작성하고, '헌법'에 비추어 스스로 비판(Critique)한 뒤 수정본(Revision)을 생성하도록 학습.
    - **RL Stage:** 수정된 데이터를 바탕으로 보상 모델을 학습시키고, 이를 통해 메인 모델을 강화학습으로 미세 조정.
- **장점:** 인간의 편향을 줄일 수 있고, 새로운 윤리적 기준이 생겼을 때 '헌법' 내용만 수정하여 효율적으로 재정렬 가능.

## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 사람이 일일이 정답을 알려주어야 한다는 고정관념에서 벗어나, 상위 원칙만으로 AI가 올바른 행동 방식을 스스로 유추할 수 있음을 증명.
- **정책 변화:** Antigravity 프로젝트는 에이전트의 행동 규범을 정의할 때 '헌법적 AI' 방법론을 차용하여, 에이전트가 지켜야 할 핵심 가치(구체성, 성실성, 안전성)를 명문화하고 이를 기반으로 답변을 자가 검증함.

## 🔗 지식 연결 (Graph)
- [[AI-Alignment|AI-Alignment]], [[Reinforcement-Learning-from-Human-Feedback-RLHF|Reinforcement-Learning-from-Human-Feedback-RLHF]], [[Trustworthy-AI|Trustworthy-AI]], AI-Safety
- **Raw Source:** 10_Wiki/Topics/AI/Constitutional-AI.md