--- id: CONST-AI-001 category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 1.0 tags: [ai-safety, constitutional-ai, rlaif, alignment, ethics] last_reinforced: 2026-04-26 --- # Constitutional AI (ν—Œλ²•μ  AI) ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "μΈκ°„μ˜ ν”Όλ“œλ°± λŒ€μ‹ , AIμ—κ²Œ λͺ…λ¬Έν™”λœ ν—Œλ²•μ„ κ°€λ₯΄μ³ 슀슀둜 μ •λ ¬ν•˜κ²Œ ν•˜λΌ" β€” Anthropic이 μ œμ•ˆν•œ λ°©μ‹μœΌλ‘œ, AI λͺ¨λΈμ—κ²Œ 일련의 원칙(ν—Œλ²•)을 μ œκ³΅ν•˜κ³ , λͺ¨λΈμ΄ μžμ‹ μ˜ 닡변을 이 원칙에 따라 슀슀둜 λΉ„νŒν•˜κ³  μˆ˜μ •ν•˜λ„λ‘ ν•™μŠ΅μ‹œν‚€λŠ” μ •λ ¬ 기법. ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) - **μΆ”μΆœλœ νŒ¨ν„΄:** λŒ€κ·œλͺ¨μ˜ 인간 ν”Όλ“œλ°±(RLHF) λΉ„μš©μ„ μ€„μ΄λ©΄μ„œλ„, λͺ…ν™•ν•œ κ°€μ΄λ“œλΌμΈμ— 따라 λͺ¨λΈμ˜ κ°€μΉ˜κ΄€μ„ μΌκ΄€λ˜κ²Œ κ³ μ •ν•˜λŠ” μžκ°€ μ •λ ¬(Self-alignment) νŒ¨ν„΄. - **μž‘λ™ κ³Όμ • (RLAIF: RL from AI Feedback):** - **Supervised Stage:** λͺ¨λΈμ΄ μ΄ˆμ•ˆμ„ μž‘μ„±ν•˜κ³ , 'ν—Œλ²•'에 λΉ„μΆ”μ–΄ 슀슀둜 λΉ„νŒ(Critique)ν•œ λ’€ μˆ˜μ •λ³Έ(Revision)을 μƒμ„±ν•˜λ„λ‘ ν•™μŠ΅. - **RL Stage:** μˆ˜μ •λœ 데이터λ₯Ό λ°”νƒ•μœΌλ‘œ 보상 λͺ¨λΈμ„ ν•™μŠ΅μ‹œν‚€κ³ , 이λ₯Ό 톡해 메인 λͺ¨λΈμ„ κ°•ν™”ν•™μŠ΅μœΌλ‘œ λ―Έμ„Έ μ‘°μ •. - **μž₯점:** μΈκ°„μ˜ 편ν–₯을 쀄일 수 있고, μƒˆλ‘œμš΄ 윀리적 기쀀이 생겼을 λ•Œ 'ν—Œλ²•' λ‚΄μš©λ§Œ μˆ˜μ •ν•˜μ—¬ 효율적으둜 μž¬μ •λ ¬ κ°€λŠ₯. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌:** μ‚¬λžŒμ΄ 일일이 정닡을 μ•Œλ €μ£Όμ–΄μ•Ό ν•œλ‹€λŠ” κ³ μ •κ΄€λ…μ—μ„œ λ²—μ–΄λ‚˜, μƒμœ„ μ›μΉ™λ§ŒμœΌλ‘œ AIκ°€ μ˜¬λ°”λ₯Έ 행동 방식을 슀슀둜 μœ μΆ”ν•  수 μžˆμŒμ„ 증λͺ…. - **μ •μ±… λ³€ν™”:** Antigravity ν”„λ‘œμ νŠΈλŠ” μ—μ΄μ „νŠΈμ˜ 행동 κ·œλ²”μ„ μ •μ˜ν•  λ•Œ 'ν—Œλ²•μ  AI' 방법둠을 μ°¨μš©ν•˜μ—¬, μ—μ΄μ „νŠΈκ°€ μ§€μΌœμ•Ό ν•  핡심 κ°€μΉ˜(ꡬ체성, μ„±μ‹€μ„±, μ•ˆμ „μ„±)λ₯Ό λͺ…λ¬Έν™”ν•˜κ³  이λ₯Ό 기반으둜 닡변을 μžκ°€ 검증함. ## πŸ”— 지식 μ—°κ²° (Graph) - [[AI-Alignment|AI-Alignment]], [[Reinforcement-Learning-from-Human-Feedback-RLHF|Reinforcement-Learning-from-Human-Feedback-RLHF]], [[Trustworthy-AI|Trustworthy-AI]], AI-Safety - **Raw Source:** 10_Wiki/Topics/AI/Constitutional-AI.md