--- id: [[P-Reinforce|P-Reinforce]]-AUTO-PRIN-001 category: Unified confidence_score: 0.95 tags: [auto-reinforced, principles, decision-making, [[Mental-Models|Mental-Models]], rules, core-values, wisdom] last_reinforced: 2026-04-20 --- # [[Principles|Principles]] ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "흔듀리지 μ•ŠλŠ” 뿌리: λ§€ μˆœκ°„ λ‹₯μ³μ˜€λŠ” 수천 κ°€μ§€ 선택지 μ•žμ—μ„œ μ—λ„ˆμ§€λ₯Ό λ‚­λΉ„ν•˜μ§€ μ•Šλ„λ‘, 이미 κ²€μ¦λœ κ°€μΉ˜μ™€ 논리에 κ·Όκ±°ν•΄ μ„Έμ›Œλ‘” 'λ‚˜λ§Œμ˜ μžλ™ κ²°μ • κ·œμΉ™'이자 λ³΅μž‘ν•œ 세상을 λ‹¨μˆœν•˜κ²Œ λŒνŒŒν•˜λŠ” 지적 무기." ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) 원칙(Principles)은 보편적으둜 μ μš©λ˜λŠ” 근본적인 진리 λ˜λŠ” 행동 μ§€μΉ¨μž…λ‹ˆλ‹€. (레이 λ‹¬λ¦¬μ˜€ λŒ€μ€‘ν™”) 1. **μ›μΉ™μ˜ κ°€μΉ˜**: * **Cognitive Offloading**: 맀번 κ³ λ―Όν•˜μ§€ μ•Šκ³  '원칙'에 따라 μ¦‰μ‹œ κ²°μ •. ([[Efficiency|Efficiency]]와 μ—°κ²°) * **Consistency**: κ°μ •μ΄λ‚˜ 상황에 흔듀리지 μ•ŠλŠ” μΌκ΄€λœ κ²°κ³Ό 보μž₯. * **Feedback/[[Refinement|Refinement]]**: κ²°κ³Όκ°€ λ‚˜μ˜λ©΄ 원칙을 λ°”κΎΈλ©΄ 됨 (지속적 κ°œμ„ ). ([[Feedback-Loops|Feedback-Loops]]와 μ—°κ²°) 2. **μ™œ μ€‘μš”ν•œκ°€?**: * 원칙이 μ—†λŠ” μ§€λŠ₯은 μž„κΈ°μ‘λ³€μ— κ·ΈμΉ˜μ§€λ§Œ, 원칙이 μžˆλŠ” μ§€λŠ₯은 'μ‹œμŠ€ν…œ'으둜 μ§„ν™”ν•˜μ—¬ 볡리 μ„±μž₯을 λ§Œλ“€μ–΄λ‚΄κΈ° λ•Œλ¬Έμž„. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌**: κ³Όκ±°μ—λŠ” μ‘°μƒμœΌλ‘œλΆ€ν„° 물렀받은 '도덕λ₯  μ •μ±…'에 λ¨Έλ¬Όλ €μœΌλ‚˜, ν˜„λŒ€ 정책은 μžμ‹ μ˜ μ‹€ν—˜κ³Ό μ‹€νŒ¨λ₯Ό 톡해 슀슀둜 κ΅¬μΆ•ν•˜λŠ” '개인적 μ˜μ‚¬κ²°μ • μ•Œκ³ λ¦¬μ¦˜ μ •μ±…'으둜 진화함(RL Update). - **μ •μ±… λ³€ν™”(RL Update)**: AI의 μ•ˆμ „ μ •μ±…(Safety Policy) λ˜ν•œ μΈκ°„μ˜ 원칙을 λͺ¨λΈμ˜ 행동 κ°•λ Ή μ •μ±…μœΌλ‘œ μ£Όμž…ν•˜λŠ” '원칙 기반 μ§€μ‹œ(Constitutional AI)' 정책이 κ°€μž₯ κ°•λ ₯ν•œ ν†΅μ œ μˆ˜λ‹¨ 정책이 됨. ## πŸ”— 지식 μ—°κ²° (Graph) - [[Decision Theory|Decision Theory]], [[Feedback-Loops|Feedback-Loops]], [[Mental-Models|Mental-Models]], [[Judgment|Judgment]], [[Philosophy|Philosophy]] - **Modern Tech/Tools**: Ray Dalio's Principles, Constitutional AI (Anthropic). ---