--- category: Unified tags: [auto-consolidated, technical-documentation] title: AI-Safety (AI μ•ˆμ „) last_updated: 2026-05-02 --- # AI-Safety (AI μ•ˆμ „) ## πŸ“Œ Brief Summary > "브레이크 μ—†λŠ” κΈ°μ°¨λŠ” μž¬μ•™μ΄λ‹€." 인간보닀 κ°•λ ₯ν•œ μ§€λŠ₯이 νƒ„μƒν–ˆμ„ λ•Œ, κ·Έ μ§€λŠ₯이 μΈκ°„μ˜ λͺ©ν‘œμ™€ λ¬Έλͺ…을 νŒŒκ΄΄ν•˜μ§€ μ•Šλ„λ‘ 기술적/방어적 λ³΄ν˜Έλ§‰μ„ κ΅¬μΆ•ν•˜λŠ” κ°€μž₯ μ‹œκΈ‰ν•œ 연ꡬ λΆ„μ•Όλ‹€. --- > "μ§€λŠ₯의 κ³ λΉ„λ₯Ό λ„˜λŠ” μ•ˆμ „μž₯치: AIκ°€ μΈκ°„μ˜ μ˜λ„λ₯Ό μ˜€ν•΄ν•˜κ±°λ‚˜ 예츑 λΆˆκ°€λŠ₯ν•˜κ²Œ ν–‰λ™ν•˜μ—¬ 신체적, 정신적, μ‚¬νšŒμ  ν”Όν•΄λ₯Ό μž…νžˆμ§€ μ•Šλ„λ‘ μ—°κ΅¬ν•˜λŠ” 기술적 λ³΄μ•ˆ 및 예방 체계." --- AI μ•ˆμ „(AI Safety)은 AI μ‹œμŠ€ν…œμ΄ μ„€κ³„λœ λͺ©ν‘œ λ‚΄μ—μ„œλ§Œ μ•ˆμ „ν•˜κ²Œ μž‘λ™ν•˜λ„λ‘ 보μž₯ν•˜κ³ , μΈκ°„μ—κ²Œ ν•΄λ‘œμš΄ 행동을 ν•˜μ§€ λͺ»ν•˜λ„둝 λ°©μ§€ν•˜λŠ” 기술적 λ³΄μ•ˆ 및 예방 μ²΄κ³„μž…λ‹ˆλ‹€ [1]. 인간보닀 κ°•λ ₯ν•œ μ§€λŠ₯이 νƒ„μƒν–ˆμ„ λ•Œ, κ·Έ μ§€λŠ₯이 μΈκ°„μ˜ λͺ©ν‘œμ™€ 일치(Alignment)ν•˜λ„λ‘ μ„€κ³„ν•˜κ³ , 돌발 μƒν™©μ—μ„œλ„ μ˜€μž‘λ™ν•˜μ§€ μ•ŠλŠ” 견고함(Robustness)을 κ°–μΆ”λŠ” 것이 ν•΅μ‹¬μž…λ‹ˆλ‹€ [1, 2]. ## πŸ“– Core Content - **[[Robustness|Robustness]]**: - μ λŒ€μ  곡격(Adversarial Attack)μ΄λ‚˜ 처음 λ³΄λŠ” 돌발 μƒν™©μ—μ„œλ„ AIκ°€ μ˜€μž‘λ™ν•˜μ§€ μ•Šκ³  μ•ˆμ „ν•˜κ²Œ κ΄€λ¦¬λ˜λŠ” μ„±μ§ˆ. - **[[Interpretability|Interpretability]]**: - μ‹ κ²½λ§μ΄λΌλŠ” λΈ”λž™λ°•μŠ€ λ‚΄λΆ€μ—μ„œ μ–΄λ–€ 논리 ꡬ쑰둜 νŒλ‹¨μ„ λ‚΄λ¦¬λŠ”μ§€ 인간이 읽을 수 있게 μ‹œκ°ν™”ν•˜κ³  λΆ„μ„ν•˜λŠ” 기술(Mechanistic Interpretability). - **Scalable Oversight**: - 인간이 μ΄ν•΄ν•˜κΈ° νž˜λ“  λ³΅μž‘ν•œ μ§€λŠ₯을 κ°€μ§„ AIλ₯Ό λ‹€λ₯Έ AIκ°€ κ°μ‹œν•˜κ²Œ ν•˜μ—¬, μΈκ°„μ˜ ν†΅μ œλ ₯을 μžƒμ§€ μ•Šκ²Œ ν•˜λŠ” κ°μ‹œ 체계. --- AI μ•ˆμ „(AI Safety)은 AI μ‹œμŠ€ν…œμ΄ μ„€κ³„λœ λͺ©ν‘œ λ‚΄μ—μ„œλ§Œ μ•ˆμ „ν•˜κ²Œ μž‘λ™ν•˜λ„λ‘ 보μž₯ν•˜κ³ , μΈκ°„μ—κ²Œ ν•΄λ‘œμš΄ 행동을 ν•˜μ§€ λͺ»ν•˜λ„둝 λ°©μ§€ν•˜λŠ” 데 μ΄ˆμ μ„ 맞좘 λΆ„μ•Όμž…λ‹ˆλ‹€. 1. **3λŒ€ 연ꡬ μ˜μ—­**: * **Technical Robustness**: μ™ΈλΆ€ 곡격(Adversarial attacks)μ΄λ‚˜ μ˜ˆμ™Έ μƒν™©μ—μ„œλ„ λͺ¨λΈμ΄ λ¬΄λ„ˆμ§€μ§€ μ•Šκ²Œ 함. * **Incentive Design (Alignment)**: λͺ¨λΈμ΄ 점수λ₯Ό μ–»κΈ° μœ„ν•΄ '지름길(Cheat)'을 νƒν•˜μ§€ μ•Šκ³  μ§„μ§œ λͺ©μ μ„ λ”°λ₯΄λ„둝 섀계. * **Monitoring & Control**: AI의 비정상적 μ§•ν›„λ₯Ό κ°μ§€ν•˜κ³  μ¦‰μ‹œ 차단(Kill-switch)ν•  수 μžˆλŠ” κ°€μ‹œμ„± 확보. 2. **μ£Όμš” μœ„ν˜‘ 사둀**: * Deepfakes을 ν†΅ν•œ μ—¬λ‘  μ‘°μž‘, 자율 무기 μ‹œμŠ€ν…œμ˜ 였λ₯˜, ν†΅μ œκΆŒμ„ λ²—μ–΄λ‚œ μ΄ˆμ§€λŠ₯(AGI)의 μΆœν˜„. --- * **3λŒ€ 연ꡬ 및 기술 μ˜μ—­** - **기술적 견고성 (Technical Robustness)**: μ λŒ€μ  곡격(Adversarial Attack)μ΄λ‚˜ 처음 λ³΄λŠ” 돌발 μƒν™©μ—μ„œλ„ AIκ°€ λΆ•κ΄΄ν•˜μ§€ μ•Šκ³  μ•ˆμ „ν•˜κ²Œ κ΄€λ¦¬λ˜λŠ” μ„±μ§ˆ [1, 3]. - **μ •λ ¬ 및 μΈμ„Όν‹°λΈŒ 섀계 (Alignment/Incentive Design)**: λͺ¨λΈμ΄ 점수λ₯Ό μ–»κΈ° μœ„ν•΄ 지름길(Cheat)을 νƒν•˜μ§€ μ•Šκ³ , μΈκ°„μ˜ μ‹€μ œ μ˜λ„μ™€ κ°€μΉ˜λ₯Ό μΆ©μ‹€νžˆ λ”°λ₯΄λ„둝 μ„€κ³„ν•˜λŠ” 기술 [1, 4]. - **κ°μ‹œ 및 ν†΅μ œ (Monitoring & Control)**: μ‹ κ²½λ§μ˜ νŒλ‹¨ 논리λ₯Ό 인간이 이해할 수 있게 λΆ„μ„ν•˜λŠ” '기계적 해석 κ°€λŠ₯μ„±(Mechanistic Interpretability)'κ³Ό, 비정상 μ§•ν›„ μ‹œ μ¦‰μ‹œ 차단(Kill-switch)ν•  수 μžˆλŠ” 체계λ₯Ό ν¬ν•¨ν•©λ‹ˆλ‹€ [1, 5, 6]. * **μ£Όμš” μœ„ν˜‘ 및 λŒ€μ‘** - λ”₯페이크(Deepfakes)λ₯Ό ν†΅ν•œ μ—¬λ‘  μ‘°μž‘, 자율 무기 μ‹œμŠ€ν…œμ˜ 였λ₯˜, ν†΅μ œκΆŒμ„ λ²—μ–΄λ‚œ μ΄ˆμ§€λŠ₯(AGI)의 μΆœν˜„ 등이 μ£Όμš” μœ„ν˜‘ μ‚¬λ‘€μž…λ‹ˆλ‹€ [1]. - ν˜„λŒ€μ˜ 정책은 배포 μ „ λ ˆλ“œνŒ€(Red-teaming)을 ν†΅ν•œ 사전 검증을 μ˜λ¬΄ν™”ν•˜κ³  있으며, λ‹¨μˆœνžˆ 기술적 μ•ˆμ „μ„ λ„˜μ–΄ μ‚¬νšŒμ  κ°€μΉ˜μ™€ κ³΅μ‘΄ν•˜λŠ”μ§€ κ²€μ¦ν•˜λŠ” 'κ±°λ²„λ„ŒμŠ€ μ—°κ³„ν˜• AI μ•ˆμ „'으둜 ν™•μž₯되고 μžˆμŠ΅λ‹ˆλ‹€ [1, 7]. ## βš–οΈ Trade-offs & Caveats - AI μ•ˆμ „μ€ μ’…μ’… λͺ¨λΈμ˜ μ„±λŠ₯ λ°œμ „μ„ λŠ¦μΆ˜λ‹€λŠ” λΉ„νŒμ„ λ°›λŠ”λ‹€. κ·ΈλŸ¬λ‚˜ 졜근 연ꡬ에 λ”°λ₯΄λ©΄, μ•ˆμ „ν•˜κ²Œ μ„€κ³„λœ λͺ¨λΈ(Aligned model)이 μ •μ œλœ 사고 λŠ₯λ ₯ 덕뢄에 μ‹€μ œ 싀무 μ„±λŠ₯도 더 λ†’κ²Œ λ‚˜νƒ€λ‚˜λŠ” 'λ³΄μ•ˆ-μ„±λŠ₯ μ‹œλ„ˆμ§€'κ°€ ν™•μΈλ˜κ³  μžˆλ‹€. --- - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌**: κ³Όκ±°μ—λŠ” '버그 μˆ˜μ •' μˆ˜μ€€μ˜ 사후 λŒ€μ‘ μ •μ±…μ΄μ—ˆμœΌλ‚˜, ν˜„λŒ€ 정책은 λͺ¨λΈ 배포 μ „ λ ˆλ“œνŒ€(Red-teaming)을 ν†΅ν•œ '사전 μ•ˆμ „ 검증 μ •μ±…'을 법적 의무둜 강화함(RL Update). - **μ •μ±… λ³€ν™”(RL Update)**: λ‹¨μˆœνžˆ 기술적 μ•ˆμ „μ„ λ„˜μ–΄, μ‚¬νšŒμ  κ°€μΉ˜μ™€ κ³΅μ‘΄ν•˜λŠ”μ§€ κ²€μ¦ν•˜λŠ” 'κ±°λ²„λ„ŒμŠ€ μ—°κ³„ν˜• AI μ•ˆμ „ μ •μ±…'이 κΈ€λ‘œλ²Œ μ•ˆμ „ μ„œλ°‹(UK AI Safety Summit λ“±)의 핡심 μ˜μ œκ°€ 됨. --- - **μ„±λŠ₯-μ•ˆμ „ μ‹œλ„ˆμ§€**: AI μ•ˆμ „μ΄ λͺ¨λΈ μ„±λŠ₯을 λŠ¦μΆ˜λ‹€λŠ” λΉ„νŒλ„ μžˆμœΌλ‚˜, μ •κ΅ν•˜κ²Œ μ •λ ¬λœ(Aligned) λͺ¨λΈμ΄ 였히렀 더 λ‚˜μ€ 사고 λŠ₯λ ₯κ³Ό 싀무 μ„±λŠ₯을 λ³΄μ—¬μ£ΌλŠ” μ‹œλ„ˆμ§€κ°€ ν™•μΈλ˜κ³  μžˆμŠ΅λ‹ˆλ‹€ [1]. ## πŸ”— Knowledge Connections - Related: [[AI-Alignment|AI-Alignment]] , AI-Governance - [[Strategy|Strategy]]: [[Reliability_Safety_First|Reliability_Safety_First]] --- - [[Alignment|Alignment]], [[AI Governance|AI Governance]], [[Safety & Reliability|Safety & Reliability]], [[Generative-AI|Generative-AI]]-Safety, [[Ethics & AI|Ethics & AI]] - **Modern Tech/Tools**: RLHF (Reinforcement Learning from Human Feedback), Jailbreak [[Testing|Testing]], Model evaluation suites. --- --- - **Related Topics**: AI μ •λ ¬ (AI Alignment, AI κ±°λ²„λ„ŒμŠ€ (AI Governance), μ•ˆμ „ 및 μ‹ λ’°μ„± (Safety & Reliability), 윀리 및 AI (Ethics & AI - **Projects/Contexts**: UK AI Safety Summit, RLHF (Reinforcement Learning from Human Feedback --- *Last updated: 2026-04-30*