id: P-Reinforce-AUTO-AISA-001 category: "10_Wiki/💡 Topics/AI" confidence_score: 0.99 tags: [auto-reinforced, ai-safety, Alignment, existential-risk, Robustness, evaluation] last_reinforced: 2026-04-20

3대 연구 영역: Technical Robustness : 외부 공격(Adversarial attacks)이나 예외 상황에서도 모델이 무너지지 않게 함. Incentive Design (Alignment) : 모델이 점수를 얻기 위해 &#39;지름길(Cheat)&#39;을 택하지 않고 진짜 목적을 따르도록 설계. Monitoring &amp; Control : AI의 비정상적 징후를 감지하고 즉시 차단(Kill-switch)할 수 있는 가시성 확보.
주요 위협 사례: Deepfakes을 통한 여론 조작, 자율 무기 시스템의 오류, 통제권을 벗어난 초지능(AGI)의 출현.

AI Safety

"지능의 고비를 넘는 안전장치: AI가 인간의 의도를 오해하거나 예측 불가능하게 행동하여 신체적, 정신적, 사회적 피해를 입히지 않도록 연구하는 기술적 보안 및 예방 체계."

AI 안전(AI Safety)은 AI 시스템이 설계된 목표 내에서만 안전하게 작동하도록 보장하고, 인간에게 해로운 행동을 하지 못하도록 방지하는 데 초점을 맞춘 분야입니다.