2nd/10_Wiki/Topics/AI_and_ML/Constitutional-AI.md

---
category: Unified
tags: [auto-consolidated, technical-documentation]
title: [[Constitutional AI (헌법 AI)|Constitutional AI (헌법 AI)]]
last_updated: 2026-05-02
---

# [[Constitutional AI (헌법 AI)|Constitutional AI (헌법 AI)]]

## 📌 Brief Summary
> "AI에게 헌법을 주다: 모델의 행동을 일일이 사람이 교정하는 대신, 지켜야 할 명확한 원칙(헌법)을 입력하고 AI가 스스로 그 원칙에 따라 자신의 답변을 평가하고 수정하게 만드는 고차원적 자가 정렬 기법."

---

> "인간의 피드백 대신, AI에게 명문화된 헌법을 가르쳐 스스로 정렬하게 하라" — Anthropic이 제안한 방식으로, AI 모델에게 일련의 원칙(헌법)을 제공하고, 모델이 자신의 답변을 이 원칙에 따라 스스로 비판하고 수정하도록 학습시키는 정렬 기법.

## 📖 Core Content
헌법 AI(Constitutional AI)는 앤스로픽(Anthropic)이 제안한 기술로, AI 시스템의 안전성과 가치관을 대규모로 정렬하기 위한 방법론입니다.

1.  **작동 단계**:
    *   **Supervised Learning**: 헌법(예: "도움이 되고 정직하며 해롭지 않아야 한다")을 기반으로 모델이 스스로 응답을 생성하고 비판하며 개선하는 과정을 거침.
    *   **RLAIF (RL from AI Feedback)**: 인간 대신 '헌법을 숙지한 AI 모델'이 다른 모델의 답변을 평가하여 선호도 데이터를 생성하고, 이를 통해 강화학습 수행. (RLHF의 확장)
2.  **왜 중요한가?**:
    *   인간의 피드백은 비용이 많이 들고 일관성이 부족할 수 있지만, 헌법 AI는 명문화된 원칙에 따라 속도와 규모감 있게 정렬을 수행함. ([[Efficiency|Efficiency]]와 안전성 확보)

---

- **추출된 패턴:** 대규모의 인간 피드백(RLHF) 비용을 줄이면서도, 명확한 가이드라인에 따라 모델의 가치관을 일관되게 고정하는 자가 정렬(Self-alignment) 패턴.
- **작동 과정 (RLAIF: RL from AI Feedback):**
    - **Supervised Stage:** 모델이 초안을 작성하고, '헌법'에 비추어 스스로 비판(Critique)한 뒤 수정본(Revision)을 생성하도록 학습.
    - **RL Stage:** 수정된 데이터를 바탕으로 보상 모델을 학습시키고, 이를 통해 메인 모델을 강화학습으로 미세 조정.
- **장점:** 인간의 편향을 줄일 수 있고, 새로운 윤리적 기준이 생겼을 때 '헌법' 내용만 수정하여 효율적으로 재정렬 가능.

## ⚖️ Trade-offs & Caveats
- **과거 데이터와의 충돌**: 초기 안전 정책은 유해 단어 차단 등 단순 '필터링 정책' 중심이었으나, 현대 정책은 모델의 내재적 철학 정책을 교정하는 '헌법 기반 자아 정렬 정책'으로 고도화됨(RL Update).
- **정책 변화(RL Update)**: 어떤 가치가 헌법에 포함되어야 하는가에 대한 '민주적 헌법 제정 정책'이 중요해짐에 따라, 기술 기업이 독점하는 가치가 아닌 인류 보편적 가치 정책을 반영하려는 사회적 합의 활동이 활발해짐.

---

- **과거 데이터와의 충돌:** 사람이 일일이 정답을 알려주어야 한다는 고정관념에서 벗어나, 상위 원칙만으로 AI가 올바른 행동 방식을 스스로 유추할 수 있음을 증명.
- **정책 변화:** Antigravity 프로젝트는 에이전트의 행동 규범을 정의할 때 '헌법적 AI' 방법론을 차용하여, 에이전트가 지켜야 할 핵심 가치(구체성, 성실성, 안전성)를 명문화하고 이를 기반으로 답변을 자가 검증함.

## 🔗 Knowledge Connections
- [[RLHF (인간 피드백 기반 강화 학습)|RLHF (인간 피드백 기반 강화 학습)]], [[AI Safety|AI Safety]], [[Ethics & AI|Ethics & AI]], [[Alignment|Alignment]], [[Policy-Surveillance|Policy-Surveillance]]
- **Modern Tech/Tools**: Claude (Anthropic), RLAIF frameworks, Constitutional drafting guides.
---

---

- [[AI-Alignment|AI-Alignment]], [[Reinforcement-Learning-from-Human-Feedback-RLHF|Reinforcement-Learning-from-Human-Feedback-RLHF]], [[Trustworthy-AI|Trustworthy-AI]], AI-Safety
- **Raw Source:** 10_Wiki/Topics/AI/Constitutional-AI.md