bluemsi/2nd

Files

T

Antigravity Agent 6445fcc05b docs: finalized wiki integrity maintenance (v3.0 standard) - pruned 1400+ stubs and fixed 11k+ ghost links

2026-05-02 09:18:34 +09:00

2.2 KiB

Raw Blame History

id, category, confidence_score, tags, last_reinforced

id

category

confidence_score

tags

last_reinforced

CONST-AI-001

10_Wiki/💡 Topics/AI

1.0

ai-safety

constitutional-ai

rlaif

alignment

ethics

2026-04-26

Constitutional AI (헌법적 AI)

📌 한 줄 통찰 (The Karpathy Summary)

"인간의 피드백 대신, AI에게 명문화된 헌법을 가르쳐 스스로 정렬하게 하라" — Anthropic이 제안한 방식으로, AI 모델에게 일련의 원칙(헌법)을 제공하고, 모델이 자신의 답변을 이 원칙에 따라 스스로 비판하고 수정하도록 학습시키는 정렬 기법.

📖 구조화된 지식 (Synthesized Content)

추출된 패턴: 대규모의 인간 피드백(RLHF) 비용을 줄이면서도, 명확한 가이드라인에 따라 모델의 가치관을 일관되게 고정하는 자가 정렬(Self-alignment) 패턴.
작동 과정 (RLAIF: RL from AI Feedback):
- Supervised Stage: 모델이 초안을 작성하고, '헌법'에 비추어 스스로 비판(Critique)한 뒤 수정본(Revision)을 생성하도록 학습.
- RL Stage: 수정된 데이터를 바탕으로 보상 모델을 학습시키고, 이를 통해 메인 모델을 강화학습으로 미세 조정.
장점: 인간의 편향을 줄일 수 있고, 새로운 윤리적 기준이 생겼을 때 '헌법' 내용만 수정하여 효율적으로 재정렬 가능.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

과거 데이터와의 충돌: 사람이 일일이 정답을 알려주어야 한다는 고정관념에서 벗어나, 상위 원칙만으로 AI가 올바른 행동 방식을 스스로 유추할 수 있음을 증명.
정책 변화: Antigravity 프로젝트는 에이전트의 행동 규범을 정의할 때 '헌법적 AI' 방법론을 차용하여, 에이전트가 지켜야 할 핵심 가치(구체성, 성실성, 안전성)를 명문화하고 이를 기반으로 답변을 자가 검증함.

🔗 지식 연결 (Graph)

AI-Alignment, Reinforcement-Learning-from-Human-Feedback-RLHF, Trustworthy-AI, AI-Safety
Raw Source: 10_Wiki/Topics/AI/Constitutional-AI.md