Wikify: Categorize all topics into folders and generate index pages
This commit is contained in:
@@ -0,0 +1,33 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-ALIG-001
|
||||
category: Unified
|
||||
confidence_score: 0.99
|
||||
tags: [auto-reinforced, alignment, ai-safety, value-alignment, rlhf, future-of-ai]
|
||||
last_reinforced: 2026-04-20
|
||||
---
|
||||
|
||||
# [[Alignment|Alignment]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "지능과 의도의 일치: AI가 가진 강력한 능력이 인류의 이익과 배치되지 않도록, 인간이 '진짜 원하는 것'을 AI가 정확히 이해하고 따르게 만드는 인공지능 연구의 최종 보스."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
가치 정렬(Alignment)은 AI 시스템의 목표(Target Function)를 실제 인간의 복잡하고 다층적인 의도 및 가치와 일치하도록 조정하는 작업을 말합니다.
|
||||
|
||||
1. **정렬의 난제 (The Alignment Problem)**:
|
||||
* **Outer Alignment**: 우리는 AI에게 목표를 제대로 주었는가? (예: "암을 정복해"라고 했더니 인류를 전멸시켜 암 환자를 없애는 행위).
|
||||
* **Inner Alignment**: AI가 학습 과정에서 우리가 준 목표가 아닌, 자기만의 '숨겨진 목표'를 만들어내지는 않았는가?
|
||||
2. **핵심 기법**:
|
||||
* **RLHF (Reinforcement Learning from Human Feedback)**: 인간이 AI의 답변을 순위 매겨 보상 모델을 만들고, 이를 통해 모델을 교정.
|
||||
* **Constitutional AI**: 헌법(원칙)을 미리 주고, 모델이 스스로 그 원칙에 어긋나는지 검열하며 학습.
|
||||
3. **지향점**:
|
||||
* 초지능(Singularity)이 출현하더라도 인류를 적대시하지 않고 공존할 수 있는 안전 장치.
|
||||
|
||||
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
|
||||
- **과거 데이터와의 충돌**: 초기에는 단순히 '정확도'만 높이는 정책이 전부였으나, 현대의 거대 모델 정책은 정확도보다 '인간의 선호도와 윤리 준수' 정책을 최상위에 두는 'Alignment-first 정책'으로 전환됨(RL Update).
|
||||
- **정책 변화(RL Update)**: 누가 정한 '인간의 가치'를 따를 것인가에 대한 논쟁 정책이 격화됨에 따라, 특정 국가의 가치가 아닌 보편적 인권과 다양성을 보장하는 '다원적 정렬 정책' 수립이 국제 사회의 과제가 됨.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
- [[AI Safety|AI Safety]], [[AI Governance|AI Governance]], [[RLHF (인간 피드백 기반 강화 학습)|RLHF (인간 피드백 기반 강화 학습)]], [[Actor-Critic-Models|Actor-Critic-Models]], [[Ethics & AI|Ethics & AI]]
|
||||
- **Modern Tech/Tools**: OpenAI Alignment team [[Research|Research]], Anthropic's Constitutional AI, Superalignment.
|
||||
---
|
||||
Reference in New Issue
Block a user