32 lines
2.1 KiB
Markdown
32 lines
2.1 KiB
Markdown
---
|
|
id: P-REINFORCE-AUTO-AISA-001
|
|
category: "10_Wiki/💡 Topics/AI"
|
|
confidence_score: 0.99
|
|
tags: [auto-reinforced, ai-safety, alignment, existential-risk, robustness, evaluation]
|
|
last_reinforced: 2026-04-20
|
|
---
|
|
|
|
# [[AI Safety]]
|
|
|
|
## 📌 한 줄 통찰 (The Karpathy Summary)
|
|
> "지능의 고비를 넘는 안전장치: AI가 인간의 의도를 오해하거나 예측 불가능하게 행동하여 신체적, 정신적, 사회적 피해를 입히지 않도록 연구하는 기술적 보안 및 예방 체계."
|
|
|
|
## 📖 구조화된 지식 (Synthesized Content)
|
|
AI 안전(AI Safety)은 AI 시스템이 설계된 목표 내에서만 안전하게 작동하도록 보장하고, 인간에게 해로운 행동을 하지 못하도록 방지하는 데 초점을 맞춘 분야입니다.
|
|
|
|
1. **3대 연구 영역**:
|
|
* **Technical Robustness**: 외부 공격(Adversarial attacks)이나 예외 상황에서도 모델이 무너지지 않게 함.
|
|
* **Incentive Design (Alignment)**: 모델이 점수를 얻기 위해 '지름길(Cheat)'을 택하지 않고 진짜 목적을 따르도록 설계.
|
|
* **Monitoring & Control**: AI의 비정상적 징후를 감지하고 즉시 차단(Kill-switch)할 수 있는 가시성 확보.
|
|
2. **주요 위협 사례**:
|
|
* Deepfakes을 통한 여론 조작, 자율 무기 시스템의 오류, 통제권을 벗어난 초지능(AGI)의 출현.
|
|
|
|
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
|
|
- **과거 데이터와의 충돌**: 과거에는 '버그 수정' 수준의 사후 대응 정책이었으나, 현대 정책은 모델 배포 전 레드팀(Red-teaming)을 통한 '사전 안전 검증 정책'을 법적 의무로 강화함(RL Update).
|
|
- **정책 변화(RL Update)**: 단순히 기술적 안전을 넘어, 사회적 가치와 공존하는지 검증하는 '거버넌스 연계형 AI 안전 정책'이 글로벌 안전 서밋(UK AI Safety Summit 등)의 핵심 의제가 됨.
|
|
|
|
## 🔗 지식 연결 (Graph)
|
|
- [[Alignment]], [[AI Governance]], [[Safety & Reliability]], Generative-AI-Safety, [[Ethics & AI]]
|
|
- **Modern Tech/Tools**: RLHF (Reinforcement Learning from Human Feedback), Jailbreak testing, Model evaluation suites.
|
|
---
|