bluemsi/2nd

Files

T

Antigravity Agent c61f415e2b Chore: Update all Topics metadata to category: Unified

2026-05-02 23:33:34 +09:00

2.5 KiB

Raw Blame History

id: P-Reinforce-AUTO-CAII-001 category: Unified confidence_score: 0.96 tags: [auto-reinforced, Constitutional-AI, ai-safety, ethics, rlaif, anthropic] last_reinforced: 2026-04-20

Constitutional AI (헌법 AI)

📌 한 줄 통찰 (The Karpathy Summary)

"AI에게 헌법을 주다: 모델의 행동을 일일이 사람이 교정하는 대신, 지켜야 할 명확한 원칙(헌법)을 입력하고 AI가 스스로 그 원칙에 따라 자신의 답변을 평가하고 수정하게 만드는 고차원적 자가 정렬 기법."

📖 구조화된 지식 (Synthesized Content)

헌법 AI(Constitutional AI)는 앤스로픽(Anthropic)이 제안한 기술로, AI 시스템의 안전성과 가치관을 대규모로 정렬하기 위한 방법론입니다.

작동 단계:
- Supervised Learning: 헌법(예: "도움이 되고 정직하며 해롭지 않아야 한다")을 기반으로 모델이 스스로 응답을 생성하고 비판하며 개선하는 과정을 거침.
- RLAIF (RL from AI Feedback): 인간 대신 '헌법을 숙지한 AI 모델'이 다른 모델의 답변을 평가하여 선호도 데이터를 생성하고, 이를 통해 강화학습 수행. (RLHF의 확장)
왜 중요한가?:
- 인간의 피드백은 비용이 많이 들고 일관성이 부족할 수 있지만, 헌법 AI는 명문화된 원칙에 따라 속도와 규모감 있게 정렬을 수행함. (Efficiency와 안전성 확보)

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

과거 데이터와의 충돌: 초기 안전 정책은 유해 단어 차단 등 단순 '필터링 정책' 중심이었으나, 현대 정책은 모델의 내재적 철학 정책을 교정하는 '헌법 기반 자아 정렬 정책'으로 고도화됨(RL Update).
정책 변화(RL Update): 어떤 가치가 헌법에 포함되어야 하는가에 대한 '민주적 헌법 제정 정책'이 중요해짐에 따라, 기술 기업이 독점하는 가치가 아닌 인류 보편적 가치 정책을 반영하려는 사회적 합의 활동이 활발해짐.

🔗 지식 연결 (Graph)

RLHF (인간 피드백 기반 강화 학습), AI Safety, Ethics & AI, Alignment, Policy-Surveillance
Modern Tech/Tools: Claude (Anthropic), RLAIF frameworks, Constitutional drafting guides.