--- id: AI-INT-EXP-001 category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 1.0 tags: [ai, explainable-ai, xai, interpretability, explainability, trust] last_reinforced: 2026-04-26 --- # Interpretability vs Explainability (해석 κ°€λŠ₯μ„± vs μ„€λͺ… κ°€λŠ₯μ„±) ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "λͺ¨λΈμ˜ λ‚΄λΆ€ 회둜λ₯Ό 투λͺ…ν•˜κ²Œ λ“€μ—¬λ‹€λ³΄λŠ” 것과, λͺ¨λΈμ΄ μ™œ 그런 행동을 ν–ˆλŠ”μ§€ μΈκ°„μ˜ μ–Έμ–΄λ‘œ μ„€λ“ν•˜λŠ” 것은 λ³„κ°œμ˜ λ¬Έμ œλ‹€" β€” AI μ‹œμŠ€ν…œμ˜ 투λͺ…성을 ν™•λ³΄ν•˜κΈ° μœ„ν•œ 두 κ°€μ§€ μ ‘κ·Όλ²•μœΌλ‘œ, ꡬ쑰적 투λͺ…μ„±(Interpretability)κ³Ό 결과에 λŒ€ν•œ 논리적 μ„œμˆ (Explainability) μ‚¬μ΄μ˜ 관계와 차이. ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) - **μΆ”μΆœλœ νŒ¨ν„΄:** "White-box vs Post-hoc Explanation" β€” λͺ¨λΈμ˜ 섀계 μžμ²΄κ°€ λ‹¨μˆœν•˜μ—¬ 인간이 μ§κ΄€μ μœΌλ‘œ 이해할 수 있게 ν•˜κ±°λ‚˜(Interpretability), λ³΅μž‘ν•œ λͺ¨λΈμ˜ κ²°κ³Όλ₯Ό μ‚¬ν›„μ μœΌλ‘œ λΆ„μ„ν•˜μ—¬ 인간이 이해할 수 μžˆλŠ” ν˜•νƒœλ‘œ μž¬ν•΄μ„(Explainability)ν•˜λŠ” μ‹ λ’° ꡬ좕 νŒ¨ν„΄. - **핡심 차이:** - **Interpretability:** λͺ¨λΈμ΄ 'μ–΄λ–»κ²Œ' μž‘λ™ν•˜λŠ”μ§€μ— λŒ€ν•œ μ •λ°€ν•œ νŒŒμ•…. (예: μž‘μ€ μ˜μ‚¬κ²°μ • λ‚˜λ¬΄, μ„ ν˜• νšŒκ·€). λͺ¨λΈμ΄ μž‘μ„μˆ˜λ‘ λ†’μŒ. - **Explainability:** λͺ¨λΈμ΄ 'μ™œ' 그런 κ²°κ³Όλ₯Ό λƒˆλŠ”μ§€μ— λŒ€ν•œ 인간 μ€‘μ‹¬μ˜ μ„€λͺ…. (예: LIME, SHAP, μ–΄ν…μ…˜ λ§΅ μ‹œκ°ν™”). λͺ¨λΈμ΄ λ³΅μž‘ν•΄λ„ 사후 μ„€λͺ… κ°€λŠ₯. - **의의:** AIκ°€ μ‚¬νšŒμ μœΌλ‘œ μ€‘μš”ν•œ κ²°μ •(λŒ€μΆœ 승인, μžμœ¨μ£Όν–‰ 사고, 의료 진단)을 내릴 λ•Œ, κ·Έ κ·Όκ±°λ₯Ό μ œμ‹œν•¨μœΌλ‘œμ¨ μ±…μž„ μ†Œμž¬λ₯Ό λͺ…ν™•νžˆ ν•˜κ³  μ‚¬μš©μžμ˜ μ‹ λ’°λ₯Ό μ–»λŠ” 핡심 μˆ˜λ‹¨. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌:** μ„±λŠ₯κ³Ό 투λͺ…성은 λ°˜λΉ„λ‘€ν•œλ‹€λŠ” 믿음(Trade-off)을 κ·Ήλ³΅ν•˜κΈ° μœ„ν•΄, μ΅œκ·Όμ—λŠ” κ±°λŒ€ λͺ¨λΈμ˜ λ‚΄λΆ€ ν™œμ„±ν™” νŒ¨ν„΄μ„ λΆ„μ„ν•˜μ—¬ κ°œλ… λ‹¨μœ„μ˜ 해석을 μ‹œλ„ν•˜λŠ” 기법(Mechanistic Interpretability)이 λ°œμ „ 쀑. - **μ •μ±… λ³€ν™”:** Antigravity ν”„λ‘œμ νŠΈλŠ” μ—μ΄μ „νŠΈμ˜ 닡변에 항상 `Rationale` μ„Ήμ…˜μ„ ν¬ν•¨μ‹œμΌœ 'μ„€λͺ… κ°€λŠ₯μ„±'을 ν™•λ³΄ν•˜λ©°, λ³΅μž‘ν•œ μΆ”λ‘  과정은 지식 κ·Έλž˜ν”„ μƒμ˜ μ—°κ²° 경둜둜 '해석 κ°€λŠ₯μ„±'을 보쑰함. ## πŸ”— 지식 μ—°κ²° (Graph) - [[Explainable-AI-XAI]], [[Trustworthy-AI]], AI-Ethics, Decision-Trees-and-Random-Forests - **Raw Source:** 10_Wiki/Topics/AI/Interpretability-vs-Explainability.md