docs(wiki): Finalized P-Reinforce v3.0 wikification of all 118 out_wiki assets

This commit is contained in:
Antigravity Agent
2026-05-04 13:33:35 +09:00
parent 772d3e11e0
commit 972cd84dba
28 changed files with 1054 additions and 0 deletions
@@ -0,0 +1,38 @@
---
id: [[P-Reinforce|P-Reinforce]]-AUTO-SAFE-001
category: Unified
confidence_score: 0.98
tags: [auto-reinforced, ai-safety, constitutional-ai, alignment, anthropic, ethics]
last_reinforced: 2026-05-04
---
# [[AI Safety & Constitutional AI|AI Safety & Constitutional AI]]
## 📌 한 줄 통찰 (The Karpathy Summary)
> "양심을 가진 기계: 인간의 일일이 개입하는 잔소리 대신, '헌법'이라 불리는 핵심 원칙들을 모델 스스로 내면화하게 하여 유해성을 걸러내고 인류의 가치에 정렬시키는 시스템적 윤리 가드레일."
## 📖 구조화된 지식 (Synthesized Content)
AI 안전(Safety)은 모델이 인류에게 해를 끼치지 않도록 통제하는 기술이며, Constitutional AI(헌법적 AI)는 이를 실현하는 가장 진보된 방법론 중 하나입니다.
1. **Constitutional AI (앤스로픽)**:
* **원리**: 인간이 모든 답변을 평가하는 대신, 명문화된 '헌법(원칙)'을 제시하고 모델이 스스로 자신의 답변을 평가하고 수정(Self-critique)하게 합니다.
* **단계**: [AI 피드백 생성] $\rightarrow$ [수정된 답변으로 학습(RLAIF)].
* **효과**: 맹목적으로 답변을 거부하는 것이 아니라, 맥락을 이해하며 유연하게 위험을 회피하고 환각 대신 불확실성을 인정하게 합니다.
2. **핵심 안전 과제**:
* **CBRN 방어**: 화학(C), 생물(B), 방사능(R), 핵(N)과 관련된 위험 정보를 생성하지 않도록 정렬합니다.
* **탈옥(Jailbreak) 방지**: 악의적인 프롬프트 주입을 통해 안전 가이드라인을 무력화하려는 시도를 차단합니다.
* **Over-refusal 완화**: 너무 조심스러워서 무해한 질문에도 답변을 거부하는 현상을 줄이는 것이 현대 안전 기술의 숙제입니다.
3. **RLAIF (RL from AI Feedback)**:
* 인간 대신 다른 강력한 모델(Teacher model)의 피드백을 사용하여 효율적으로 대규모 모델을 정렬하는 기술입니다.
## ⚖️ Trade-offs & Caveats
* **지능과 안전의 균형**: 안전 가드레일이 너무 강하면 모델의 창의성이나 문제 해결 능력이 저하될 수 있습니다.
* **가치 편향**: '헌법'을 누가, 어떻게 정의하느냐에 따라 특정 문화나 정치적 가치관이 모델에 주입될 위험이 있습니다.
## 🔗 지식 연결 (Graph)
* **상위 개념**: [[AI Governance|AI Governance]], [[Alignment|Alignment]]
* **관련 모델**: [[Claude|Claude]] (헌법적 AI의 선구자)
* **연관 기술**: [[RLHF & DPO|RLHF & DPO]], [[Prompt Injection|Prompt Injection]]
---
*Last updated: 2026-05-04*