[G1-Sync] Manual knowledge update

This commit is contained in:
Antigravity Agent
2026-04-30 22:42:02 +09:00
parent 0bd4f19e38
commit c36c0644a1
4888 changed files with 18470 additions and 18602 deletions
@@ -1,8 +1,8 @@
---
id: P-REINFORCE-AUTO-CAII-001
id: [[P-Reinforce]]-AUTO-CAII-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 0.96
tags: [auto-reinforced, constitutional-ai, ai-safety, ethics, rlaif, anthropic]
tags: [auto-reinforced, [[Constitutional-AI]], ai-safety, ethics, rlaif, anthropic]
last_reinforced: 2026-04-20
---
@@ -18,7 +18,7 @@ last_reinforced: 2026-04-20
* **Supervised Learning**: 헌법(예: "도움이 되고 정직하며 해롭지 않아야 한다")을 기반으로 모델이 스스로 응답을 생성하고 비판하며 개선하는 과정을 거침.
* **RLAIF (RL from AI Feedback)**: 인간 대신 '헌법을 숙지한 AI 모델'이 다른 모델의 답변을 평가하여 선호도 데이터를 생성하고, 이를 통해 강화학습 수행. (RLHF의 확장)
2. **왜 중요한가?**:
* 인간의 피드백은 비용이 많이 들고 일관성이 부족할 수 있지만, 헌법 AI는 명문화된 원칙에 따라 속도와 규모감 있게 정렬을 수행함. (Efficiency와 안전성 확보)
* 인간의 피드백은 비용이 많이 들고 일관성이 부족할 수 있지만, 헌법 AI는 명문화된 원칙에 따라 속도와 규모감 있게 정렬을 수행함. ([[Efficiency]]와 안전성 확보)
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌**: 초기 안전 정책은 유해 단어 차단 등 단순 '필터링 정책' 중심이었으나, 현대 정책은 모델의 내재적 철학 정책을 교정하는 '헌법 기반 자아 정렬 정책'으로 고도화됨(RL Update).