2.2 KiB
2.2 KiB
id, category, confidence_score, tags, last_reinforced
| id | category | confidence_score | tags | last_reinforced | |||||
|---|---|---|---|---|---|---|---|---|---|
| CONST-AI-001 | 10_Wiki/💡 Topics/AI | 1.0 |
|
2026-04-26 |
Constitutional AI (헌법적 AI)
📌 한 줄 통찰 (The Karpathy Summary)
"인간의 피드백 대신, AI에게 명문화된 헌법을 가르쳐 스스로 정렬하게 하라" — Anthropic이 제안한 방식으로, AI 모델에게 일련의 원칙(헌법)을 제공하고, 모델이 자신의 답변을 이 원칙에 따라 스스로 비판하고 수정하도록 학습시키는 정렬 기법.
📖 구조화된 지식 (Synthesized Content)
- 추출된 패턴: 대규모의 인간 피드백(RLHF) 비용을 줄이면서도, 명확한 가이드라인에 따라 모델의 가치관을 일관되게 고정하는 자가 정렬(Self-alignment) 패턴.
- 작동 과정 (RLAIF: RL from AI Feedback):
- Supervised Stage: 모델이 초안을 작성하고, '헌법'에 비추어 스스로 비판(Critique)한 뒤 수정본(Revision)을 생성하도록 학습.
- RL Stage: 수정된 데이터를 바탕으로 보상 모델을 학습시키고, 이를 통해 메인 모델을 강화학습으로 미세 조정.
- 장점: 인간의 편향을 줄일 수 있고, 새로운 윤리적 기준이 생겼을 때 '헌법' 내용만 수정하여 효율적으로 재정렬 가능.
⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- 과거 데이터와의 충돌: 사람이 일일이 정답을 알려주어야 한다는 고정관념에서 벗어나, 상위 원칙만으로 AI가 올바른 행동 방식을 스스로 유추할 수 있음을 증명.
- 정책 변화: Antigravity 프로젝트는 에이전트의 행동 규범을 정의할 때 '헌법적 AI' 방법론을 차용하여, 에이전트가 지켜야 할 핵심 가치(구체성, 성실성, 안전성)를 명문화하고 이를 기반으로 답변을 자가 검증함.
🔗 지식 연결 (Graph)
- AI-Alignment, Reinforcement-Learning-from-Human-Feedback-RLHF, Trustworthy-AI, AI-Safety
- Raw Source: 10_Wiki/Topics/AI/Constitutional-AI.md