--- id: XAI-001 category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 1.0 tags: [ai, xai, explainable-ai, transparency, interpretability] last_reinforced: 2026-04-26 --- # Explainable AI (XAI, μ„€λͺ… κ°€λŠ₯ν•œ 인곡지λŠ₯) ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "λͺ¨λΈμ΄ 'μ™œ' 그런 νŒλ‹¨μ„ λ‚΄λ ΈλŠ”μ§€ μΈκ°„μ˜ μ–Έμ–΄λ‘œ 증λͺ…ν•˜λΌ" β€” 결과뿐만 μ•„λ‹ˆλΌ κ·Έ 결과에 λ„μΆœλœ κ³Όμ •κ³Ό κ·Όκ±°λ₯Ό 인간이 이해할 수 μžˆλ„λ‘ μ œκ³΅ν•˜μ—¬, AI의 λΈ”λž™λ°•μŠ€ 문제λ₯Ό ν•΄κ²°ν•˜κ³  신뒰성을 ν™•λ³΄ν•˜λŠ” 기술. ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) - **μΆ”μΆœλœ νŒ¨ν„΄:** λͺ¨λΈ λ‚΄λΆ€μ˜ λ³΅μž‘ν•œ μ—°μ‚° 과정을 μ€‘μš”λ„ λ§΅(Heatmap), νŠΉμ§• 기여도(Feature Attribution), ν˜Ήμ€ μžμ—°μ–΄ μ„€λͺ…μœΌλ‘œ λ³€ν™˜ν•˜μ—¬ μ‚¬μš©μžμ—κ²Œ 투λͺ…성을 μ œκ³΅ν•˜λŠ” 해석 νŒ¨ν„΄. - **μ£Όμš” 기법:** - **LIME / SHAP:** λͺ¨λΈμ˜ μ’…λ₯˜μ™€ 상관없이 νŠΉμ • μž…λ ₯에 λŒ€ν•œ 예츑 κ·Όκ±°λ₯Ό 뢄석 (Post-hoc). - **Attention Visualization:** 트랜슀포머 λͺ¨λΈμ΄ μ–΄λ–€ λ‹¨μ–΄λ‚˜ 이미지 μ˜μ—­μ— μ§‘μ€‘ν–ˆλŠ”μ§€ μ‹œκ°ν™”. - **CAM (Class Activation Map):** 이미지 λΆ„λ₯˜ μ‹œ μ–΄λ–€ ν”½μ…€ μ˜μ—­μ΄ 결정에 κ²°μ •μ μ΄μ—ˆλŠ”μ§€ λ…ΈμΆœ. - **Rule-based Surrogates:** λ³΅μž‘ν•œ λͺ¨λΈμ„ λ‹¨μˆœν•œ μ˜μ‚¬κ²°μ • λ‚˜λ¬΄ λ“±μœΌλ‘œ κ·Όμ‚¬ν•˜μ—¬ μ„€λͺ…. - **의의:** 의료, 금육, 법λ₯  λ“± κ³ μœ„ν—˜ μ˜μ‚¬κ²°μ • λΆ„μ•Όμ—μ„œ AI λ„μž…μ„ κ°€λŠ₯ν•˜κ²Œ ν•˜λŠ” ν•„μˆ˜ 쑰건. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌:** λ‹¨μˆœνžˆ μ„±λŠ₯(Accuracy)만 λ†’μœΌλ©΄ λœλ‹€λŠ” κ΄€μ μ—μ„œ, μ„±λŠ₯을 쑰금 ν¬μƒν•˜λ”λΌλ„ 'μ„€λͺ… κ°€λŠ₯μ„±(Interpretability)'이 λ‹΄λ³΄λ˜μ–΄μ•Ό ν•œλ‹€λŠ” μ‹ λ’° 쀑심 κ΄€μ μœΌλ‘œ μ „ν™˜. - **μ •μ±… λ³€ν™”:** Antigravity ν”„λ‘œμ νŠΈλŠ” μ—μ΄μ „νŠΈκ°€ μ œμ•ˆν•œ μ½”λ“œλ‚˜ 지식 보강 λ‚΄μš©μ— λŒ€ν•΄, μ°Έκ³ ν•œ μ†ŒμŠ€ λ¬Έμ„œμ™€ μΆ”λ‘  과정을 'Rationale' μ„Έμ…˜μœΌλ‘œ λͺ…μ‹œν•˜μ—¬ μ‚¬μš©μž 검증을 돕도둝 섀계함. ## πŸ”— 지식 μ—°κ²° (Graph) - [[Trustworthy-AI]], AI-Ethics, Decision-Making, [[Feature-Engineering]] - **Raw Source:** 10_Wiki/Topics/AI/Explainable-AI-XAI.md