--- id: INTERPRET-001 category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 1.0 tags: [ai, explainable-ai, xai, machine-learning, trust] last_reinforced: 2026-04-26 --- # Interpretability (해석 κ°€λŠ₯μ„±) ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "AI λΈ”λž™λ°•μŠ€μ˜ λ‚΄λΆ€λ₯Ό λ“€μ—¬λ‹€λ³΄λŠ” 지적 렌즈" β€” λ¨Έμ‹ λŸ¬λ‹ λͺ¨λΈμ˜ νŒλ‹¨ 근거와 λ‚΄λΆ€ μž‘λ™ 기제λ₯Ό 인간이 이해할 수 μžˆλŠ” ν˜•νƒœλ‘œ μ„€λͺ…ν•˜κ³  λΆ„μ„ν•˜λŠ” λŠ₯λ ₯. ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) - **μΆ”μΆœλœ νŒ¨ν„΄:** λ³΅μž‘ν•œ 신경망 κ°€μ€‘μΉ˜ 뒀에 μˆ¨κ²¨μ§„ 논리 ꡬ쑰λ₯Ό μ‹λ³„ν•˜μ—¬, AI의 결정이 μš°μ—°μΈμ§€ μ‹€μ§ˆμ μΈ ν•™μŠ΅ 결과인지 κ²€μ¦ν•˜λŠ” νŒ¨ν„΄. - **μ„ΈλΆ€ λ‚΄μš©:** - **Global Interpretability:** λͺ¨λΈ μ „μ²΄μ˜ 거동과 μ€‘μš”ν•œ λ³€μˆ˜λ“€μ˜ 영ν–₯을 νŒŒμ•… (예: Feature Importance). - **Local Interpretability:** νŠΉμ • κ°œλ³„ 데이터에 λŒ€ν•΄ μ™œ 그런 결정을 λ‚΄λ ΈλŠ”μ§€ 뢄석 (예: LIME, SHAP). - **Mechanistic Interpretability:** λͺ¨λΈ λ‚΄λΆ€μ˜ νŠΉμ • λ‰΄λŸ°μ΄λ‚˜ '회둜(Circuit)'κ°€ μˆ˜ν–‰ν•˜λŠ” ꡬ체적인 μ•Œκ³ λ¦¬μ¦˜μ  역할을 규λͺ…. - **Trust & Safety:** μ˜€λ‹΅μ˜ 원인을 νŒŒμ•…ν•˜κ³ , λͺ¨λΈμ˜ 편ν–₯μ΄λ‚˜ μœ„ν—˜μ„±μ„ 사전에 κ°μ§€ν•˜κΈ° μœ„ν•œ ν•„μˆ˜ μš”κ±΄. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌:** μ„±λŠ₯을 μœ„ν•΄ 이해λ₯Ό ν¬κΈ°ν•˜λ˜ 'λΈ”λž™λ°•μŠ€' μ‹œλŒ€μ—μ„œ, μ‹ λ’°μ„±κ³Ό 규제 λŒ€μ‘μ„ μœ„ν•΄ 'μ„€λͺ… κ°€λŠ₯ν•œ AI(XAI)'κ°€ ν•„μˆ˜μ μΈ μ‹œλŒ€λ‘œ μ§„μž…. - **μ •μ±… λ³€ν™”:** Antigravity ν”„λ‘œμ νŠΈλŠ” λͺ¨λ“  지식 보강 μž‘μ—… μ‹œ λͺ¨λΈμ΄ μ°Έμ‘°ν•œ κ·Όκ±°(Raw Source)λ₯Ό λͺ…μ‹œν•˜μ—¬ 결과물의 해석 κ°€λŠ₯μ„±κ³Ό 신뒰도λ₯Ό 확보함. ## πŸ”— 지식 μ—°κ²° (Graph) - Explainable-AI, Circuit-Discovery, Feature-Clamping, AI-Ethics - **Raw Source:** 10_Wiki/Topics/AI/Interpretability.md