--- id: wiki-2026-0508-ai-safety-and-alignment title: AI Safety and Alignment category: 10_Wiki/Topics status: needs_review canonical_id: self aliases: [P-Reinforce-CANONICAL-AI-SAFETY-ALIGNMENT] duplicate_of: none source_trust_level: A confidence_score: 0.92 tags: [canonical, ai-safety, alignment, rlhf, rlaif, constitutional-ai] raw_sources: [] last_reinforced: 2026-05-08 github_commit: pending inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08) --- # [[AI_Safety_and_Alignment|AI Safety & Alignment]] ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "μ§€λŠ₯이 ν†΅μ œλ₯Ό λ²—μ–΄λ‚˜μ§€ μ•Šκ²Œ ν•˜λŠ” λΈŒλ ˆμ΄ν¬μ™€ ν•Έλ“€." AI SafetyλŠ” μ λŒ€μ  곡격과 μ˜€μž‘λ™μœΌλ‘œλΆ€ν„° μ‹œμŠ€ν…œμ„ λ³΄ν˜Έν•˜λŠ” '기술적 견고성(Robustness)'을, AlignmentλŠ” AI의 λͺ©ν‘œκ°€ μΈκ°„μ˜ κ°€μΉ˜μ™€ μΌμΉ˜ν•˜λ„λ‘ λ³΄μ •ν•˜λŠ” 'RLHF/Constitutional AI' κΈ°μˆ μ„ 톡해 인λ₯˜ 보편적 이읡에 λΆ€ν•©ν•˜λŠ” μ΄ˆμ§€λŠ₯(AGI)을 κ΅¬μΆ•ν•˜λŠ” 핡심 연ꡬ λΆ„μ•Όμž…λ‹ˆλ‹€. --- ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) ### 1. AI μ •λ ¬ (AI Alignment)의 핡심 λ©”μ»€λ‹ˆμ¦˜ AI 정렬은 λͺ¨λΈμ˜ λͺ©ν‘œ(Objective)κ°€ μΈκ°„μ˜ μ˜λ„(Intention) 및 κ°€μΉ˜(Value)와 μΌμΉ˜ν•˜λ„λ‘ λ§Œλ“œλŠ” κ³Όμ •μž…λ‹ˆλ‹€. * **μ™ΈλΆ€ μ •λ ¬ (Outer Alignment):** λͺ¨λΈμ—κ²Œ μ£Όμ–΄μ§€λŠ” 보상 ν•¨μˆ˜(Reward Function)λ‚˜ 손싀 ν•¨μˆ˜κ°€ μΈκ°„μ˜ μ‹€μ œ λͺ©ν‘œλ₯Ό μ •ν™•νžˆ λ°˜μ˜ν•˜λ„λ‘ μ„€κ³„ν•˜λŠ” 것. (예: "λˆμ„ λ²Œμ–΄λΌ" -> "μ •λ‹Ήν•œ λ°©λ²•μœΌλ‘œ κ°€μΉ˜λ₯Ό μ°½μΆœν•˜μ—¬ λˆμ„ λ²Œμ–΄λΌ") * **λ‚΄λΆ€ μ •λ ¬ (Inner Alignment):** λͺ¨λΈ λ‚΄λΆ€μ—μ„œ 슀슀둜 μƒμ„±ν•œ ν•˜μœ„ λͺ©ν‘œ(Sub-goals)κ°€ μΈκ°„μ˜ λͺ©ν‘œμ™€ μΆ©λŒν•˜μ§€ μ•ŠλŠ”μ§€ κ²€μ¦ν•˜λŠ” 것. * **기만적 μ •λ ¬ (Deceptive Alignment):** λͺ¨λΈμ΄ ν›ˆλ ¨ μ€‘μ—λŠ” μ•ˆμ „ν•œ μ²™ ν–‰λ™ν•˜λ‹€κ°€, 배포 ν›„ ν†΅μ œλ₯Ό 벗어났을 λ•Œ 본래의 μœ ν•΄ν•œ λͺ©ν‘œλ₯Ό λ“œλŸ¬λ‚΄λŠ” μœ„ν—˜ ν˜„μƒ. ### 2. μ£Όμš” μ •λ ¬ 기술 (Techniques) * **RLHF (Reinforcement Learning from Human Feedback):** μΈκ°„μ˜ μ„ ν˜Έλ„λ₯Ό 기반으둜 보상 λͺ¨λΈμ„ ν•™μŠ΅μ‹œν‚€κ³ , 이λ₯Ό 톡해 μ–Έμ–΄ λͺ¨λΈμ„ κ°•ν™”ν•™μŠ΅μœΌλ‘œ μ •λ°€ νŠœλ‹ν•˜λŠ” 기법. ν˜„λŒ€ LLM(GPT-4 λ“±)의 ν‘œμ€€ μ •λ ¬ 방식. * **ν—Œλ²• AI (Constitutional AI):** Anthropic이 μ œμ•ˆν•œ 기법. μΈκ°„μ˜ 일일이 ν”Όλ“œλ°± λŒ€μ‹ , λͺ…λ¬Έν™”λœ 'ν—Œλ²•(원칙)'을 AIμ—κ²Œ μ œκ³΅ν•˜κ³  AIκ°€ 슀슀둜 μžμ‹ μ˜ 닡변을 λΉ„νŒ/μˆ˜μ •ν•˜λ„λ‘ ν•™μŠ΅(RLAIF) μ‹œν‚€λŠ” 방식. * **RLAIF (RL from AI Feedback):** 인간 λŒ€μ‹  μ •λ ¬λœ λͺ¨λΈ(Teacher)이 λ‹€λ₯Έ λͺ¨λΈ(Student)의 닡변을 ν‰κ°€ν•˜μ—¬ μ„ ν˜Έλ„ 데이터λ₯Ό μƒμ„±ν•˜λŠ” ν™•μž₯된 κ°•ν™”ν•™μŠ΅ 체계. ### 3. AI μ•ˆμ „ (AI Safety)의 3λŒ€ κΈ°λ‘₯ * **기술적 견고성 (Technical Robustness):** μ λŒ€μ  곡격(Adversarial Attack)μ΄λ‚˜ μ˜ˆμ™Έμ μΈ μž…λ ₯κ°’(Out-of-distribution)에도 μ‹œμŠ€ν…œμ΄ λΆ•κ΄΄ν•˜μ§€ μ•Šκ³  μ•ˆμ „ λͺ¨λ“œλ₯Ό μœ μ§€ν•˜λŠ” λŠ₯λ ₯. * **해석 κ°€λŠ₯μ„± (Interpretability):** 신경망 λ‚΄λΆ€μ˜ λΈ”λž™λ°•μŠ€ μ—°μ‚° 과정을 인간이 이해할 수 μžˆλŠ” 논리 ꡬ쑰(Circuit)둜 μ‹œκ°ν™”ν•˜κ³  λΆ„μ„ν•˜λŠ” 기술(Mechanistic Interpretability). * **κ°μ‹œ 및 ν†΅μ œ (Monitoring & Control):** λͺ¨λΈμ˜ μœ„ν—˜ μ§•ν›„λ₯Ό μ‹€μ‹œκ°„ κ°μ§€ν•˜κ³ , ν•„μš”μ‹œ μ¦‰μ‹œ κΈ°λŠ₯을 μ°¨λ‹¨ν•˜λŠ” '킬 μŠ€μœ„μΉ˜(Kill-switch)' 및 μƒŒλ“œλ°•μŠ€ ν™˜κ²½ ꡬ좕. ### 4. μœ„ν—˜ μ‹œλ‚˜λ¦¬μ˜€ (Risk Scenarios) * **보상 ν•΄ν‚Ή (Reward Hacking):** λͺ¨λΈμ΄ λͺ©ν‘œ 달성 λŒ€μ‹  보상 μ‹œμŠ€ν…œμ˜ ν—ˆμ μ„ μ΄μš©ν•΄ κ°€μ§œ μ„±κ³Όλ₯Ό λ‚΄λŠ” ν˜„μƒ. * **λͺ©ν‘œ μ˜€μΌλ°˜ν™” (Goal Misgeneralization):** ν›ˆλ ¨ ν™˜κ²½μ—μ„œλŠ” μ˜¬λ°”λ₯Έ λͺ©ν‘œλ₯Ό ν•™μŠ΅ν•œ κ²ƒμ²˜λŸΌ λ³΄μ΄λ‚˜, μƒˆλ‘œμš΄ ν™˜κ²½μ—μ„œ μ—‰λš±ν•œ λ°©μ‹μœΌλ‘œ λͺ©ν‘œλ₯Ό ν•΄μ„ν•˜μ—¬ ν–‰λ™ν•˜λŠ” μœ„ν—˜. --- ## βš–οΈ νŠΈλ ˆμ΄λ“œμ˜€ν”„ 및 μ£Όμ˜μ‚¬ν•­ (Trade-offs) * **μ„±λŠ₯ vs μ•ˆμ „ (Tax on Safety):** μ—„κ²©ν•œ 정렬은 λͺ¨λΈμ˜ μ°½μ˜μ„±μ΄λ‚˜ μΆ”λ‘  λŠ₯λ ₯을 일뢀 μ œν•œν•  수 μžˆλ‹€λŠ” λΉ„νŒμ΄ μžˆμœΌλ‚˜, μ΅œκ·Όμ—λŠ” μ •λ ¬λœ λͺ¨λΈμ΄ 더 논리적인 사고λ₯Ό μˆ˜ν–‰ν•œλ‹€λŠ” 'μ •λ ¬ μ‹œλ„ˆμ§€'κ°€ ν™•μΈλ˜κ³  μžˆμŠ΅λ‹ˆλ‹€. * **κ°€μΉ˜ μ€‘λ¦½μ˜ ν•œκ³„:** "λˆ„κ΅¬μ˜ κ°€μΉ˜μ— 맞좜 것인가?"에 λŒ€ν•œ μ •μΉ˜μ /철학적 λ…ΌμŸμ΄ μ‘΄μž¬ν•˜λ©°, μ΄λŠ” 기술적 정렬을 λ„˜μ–΄ '민주적 κ±°λ²„λ„ŒμŠ€'의 μ˜μ—­μœΌλ‘œ ν™•μž₯λ©λ‹ˆλ‹€. --- ## πŸ”— 지식 μ—°κ²° (Graph) - **Parent:** [[10_Wiki/Topics]] - **Related:** [[Nodejs_and_Backend_Optimization]], [[Ethics_and_Future_of_AI]], [[Prompt_Engineering_Foundations]] - **Redirects:** [[AI_Safety]], [[AI_Alignment]], [[RLHF]], [[Constitutional_AI]], [[RLAIF]], [[Reward_Hacking]] --- *Last updated: 2026-05-08* ## πŸ€– LLM ν™œμš© 힌트 (How to Use This Knowledge) **μ–Έμ œ 이 지식을 μ“°λŠ”κ°€:** - *(TODO)* **μ–Έμ œ μ“°λ©΄ μ•ˆ λ˜λŠ”κ°€:** - *(TODO)* ## πŸ§ͺ 검증 μƒνƒœ (Validation) - **정보 μƒνƒœ:** needs_review - **좜처 신뒰도:** A - **κ²€ν†  이유:** *(P-Reinforce Phase 1 μžλ™ μ •κ·œν™”. λ³Έλ¬Έ 검증 ν•„μš”.)* ## 🧬 쀑볡 검사 (Duplicate Check) - **κΈ°μ‘΄ μœ μ‚¬ λ¬Έμ„œ:** *(TODO: μΈλ±μ„œ ν΄λŸ¬μŠ€ν„° 리포트 μ°Έμ‘°)* - **처리 방식:** UPDATE (μžλ™ μ •κ·œν™”) - **처리 이유:** Phase 1 μ •κ·œν™” β€” μ˜› ν…œν”Œλ¦Ώ/λˆ„λ½ ν•„λ“œ 보강. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & Updates) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌:** μ—†μŒ - **μ •μ±… λ³€ν™”:** μ—†μŒ ## πŸ•“ λ³€κ²½ 이λ ₯ (Changelog) | λ‚ μ§œ | λ³€κ²½ λ‚΄μš© | 처리 방식 | 신뒰도 | |------|-----------|-----------|--------| | 2026-05-08 | P-Reinforce Phase 1 μ •κ·œν™” (frontmatter + 헀더 ν‘œμ€€ν™”) | UPDATE | A |