--- id: P-REINFORCE-AUTO-CAII-001 category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 0.96 tags: [auto-reinforced, constitutional-ai, ai-safety, ethics, rlaif, anthropic] last_reinforced: 2026-04-20 --- # [[Constitutional AI (ν—Œλ²• AI)]] ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "AIμ—κ²Œ ν—Œλ²•μ„ μ£Όλ‹€: λͺ¨λΈμ˜ 행동을 일일이 μ‚¬λžŒμ΄ κ΅μ •ν•˜λŠ” λŒ€μ‹ , μ§€μΌœμ•Ό ν•  λͺ…ν™•ν•œ 원칙(ν—Œλ²•)을 μž…λ ₯ν•˜κ³  AIκ°€ 슀슀둜 κ·Έ 원칙에 따라 μžμ‹ μ˜ 닡변을 ν‰κ°€ν•˜κ³  μˆ˜μ •ν•˜κ²Œ λ§Œλ“œλŠ” 고차원적 μžκ°€ μ •λ ¬ 기법." ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) ν—Œλ²• AI(Constitutional AI)λŠ” μ•€μŠ€λ‘œν”½(Anthropic)이 μ œμ•ˆν•œ 기술둜, AI μ‹œμŠ€ν…œμ˜ μ•ˆμ „μ„±κ³Ό κ°€μΉ˜κ΄€μ„ λŒ€κ·œλͺ¨λ‘œ μ •λ ¬ν•˜κΈ° μœ„ν•œ λ°©λ²•λ‘ μž…λ‹ˆλ‹€. 1. **μž‘λ™ 단계**: * **Supervised Learning**: ν—Œλ²•(예: "도움이 되고 μ •μ§ν•˜λ©° ν•΄λ‘­μ§€ μ•Šμ•„μ•Ό ν•œλ‹€")을 기반으둜 λͺ¨λΈμ΄ 슀슀둜 응닡을 μƒμ„±ν•˜κ³  λΉ„νŒν•˜λ©° κ°œμ„ ν•˜λŠ” 과정을 κ±°μΉ¨. * **RLAIF (RL from AI Feedback)**: 인간 λŒ€μ‹  'ν—Œλ²•μ„ μˆ™μ§€ν•œ AI λͺ¨λΈ'이 λ‹€λ₯Έ λͺ¨λΈμ˜ 닡변을 ν‰κ°€ν•˜μ—¬ μ„ ν˜Έλ„ 데이터λ₯Ό μƒμ„±ν•˜κ³ , 이λ₯Ό 톡해 κ°•ν™”ν•™μŠ΅ μˆ˜ν–‰. (RLHF의 ν™•μž₯) 2. **μ™œ μ€‘μš”ν•œκ°€?**: * μΈκ°„μ˜ ν”Όλ“œλ°±μ€ λΉ„μš©μ΄ 많이 λ“€κ³  일관성이 λΆ€μ‘±ν•  수 μžˆμ§€λ§Œ, ν—Œλ²• AIλŠ” λͺ…λ¬Έν™”λœ 원칙에 따라 속도와 규λͺ¨κ° 있게 정렬을 μˆ˜ν–‰ν•¨. (Efficiency와 μ•ˆμ „μ„± 확보) ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌**: 초기 μ•ˆμ „ 정책은 μœ ν•΄ 단어 차단 λ“± λ‹¨μˆœ '필터링 μ •μ±…' μ€‘μ‹¬μ΄μ—ˆμœΌλ‚˜, ν˜„λŒ€ 정책은 λͺ¨λΈμ˜ λ‚΄μž¬μ  μ² ν•™ 정책을 κ΅μ •ν•˜λŠ” 'ν—Œλ²• 기반 μžμ•„ μ •λ ¬ μ •μ±…'으둜 고도화됨(RL Update). - **μ •μ±… λ³€ν™”(RL Update)**: μ–΄λ–€ κ°€μΉ˜κ°€ ν—Œλ²•μ— ν¬ν•¨λ˜μ–΄μ•Ό ν•˜λŠ”κ°€μ— λŒ€ν•œ '민주적 ν—Œλ²• μ œμ • μ •μ±…'이 μ€‘μš”ν•΄μ§μ— 따라, 기술 기업이 λ…μ ν•˜λŠ” κ°€μΉ˜κ°€ μ•„λ‹Œ 인λ₯˜ 보편적 κ°€μΉ˜ 정책을 λ°˜μ˜ν•˜λ €λŠ” μ‚¬νšŒμ  ν•©μ˜ ν™œλ™μ΄ ν™œλ°œν•΄μ§. ## πŸ”— 지식 μ—°κ²° (Graph) - [[RLHF (인간 ν”Όλ“œλ°± 기반 κ°•ν™” ν•™μŠ΅)]], [[AI Safety]], [[Ethics & AI]], [[Alignment]], [[Policy-Surveillance]] - **Modern Tech/Tools**: Claude (Anthropic), RLAIF frameworks, Constitutional drafting guides. ---