--- id: wiki-2026-0508-explainable-ai-xai title: Explainable AI XAI category: 10_Wiki/Topics status: needs_review canonical_id: self aliases: [] duplicate_of: none source_trust_level: A confidence_score: 0.92 tags: [auto-consolidated, technical-documentation] raw_sources: [] last_reinforced: 2026-05-08 github_commit: pending inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08) tech_stack: language: unspecified framework: unspecified --- # [[Explainable-AI (XAI)|Explainable-AI (XAI)]] ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "λΈ”λž™λ°•μŠ€μ˜ λšœκ»‘μ„ μ—΄λ‹€: AIκ°€ λ³΅μž‘ν•œ 신경망 μ†μ—μ„œ λ‚΄λ¦° 결둠의 κ·Όκ±°λ₯Ό 인간이 이해할 수 μžˆλŠ” 언어와 μ‹œκ° 자료둜 μ„€λͺ…ν•¨μœΌλ‘œμ¨, 기계에 λŒ€ν•œ μ‹ λ’°λ₯Ό κ΅¬μΆ•ν•˜κ³  였λ₯˜λ₯Ό 검증 κ°€λŠ₯ν•˜κ²Œ λ§Œλ“œλŠ” 투λͺ…μ„±μ˜ 기술." --- > "λͺ¨λΈμ΄ 'μ™œ' 그런 νŒλ‹¨μ„ λ‚΄λ ΈλŠ”μ§€ μΈκ°„μ˜ μ–Έμ–΄λ‘œ 증λͺ…ν•˜λΌ" β€” 결과뿐만 μ•„λ‹ˆλΌ κ·Έ 결과에 λ„μΆœλœ κ³Όμ •κ³Ό κ·Όκ±°λ₯Ό 인간이 이해할 수 μžˆλ„λ‘ μ œκ³΅ν•˜μ—¬, AI의 λΈ”λž™λ°•μŠ€ 문제λ₯Ό ν•΄κ²°ν•˜κ³  신뒰성을 ν™•λ³΄ν•˜λŠ” 기술. ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) μ„€λͺ… κ°€λŠ₯ν•œ AI(XAI, Explainable-AI)λŠ” AI λͺ¨λΈμ˜ 결과물에 λŒ€ν•΄ 인간이 이해할 수 μžˆλŠ” μ„€λͺ…을 μ œκ³΅ν•˜λŠ” 것을 λͺ©ν‘œλ‘œ ν•©λ‹ˆλ‹€. 1. **μ™œ ν•„μš”ν•œκ°€?**: * **Trust**: 의료, 금육 λ“± 생λͺ…/μžμ‚°κ³Ό 직결된 λΆ„μ•Όμ—μ„œλŠ” "μ™œ"λΌλŠ” μ§ˆλ¬Έμ— λ‹΅ν•  수 μžˆμ–΄μ•Ό 함. ([[Ethics & AI|Ethics & AI]]와 μ—°κ²°) * **Debugging**: λͺ¨λΈμ΄ μ—‰λš±ν•œ 곳을 보고 ν•™μŠ΅ν•˜λŠ”μ§€(예: 배경을 보고 λŠ‘λŒ€λ₯Ό λΆ„λ₯˜) 확인. * **Regulatory Compliance**: AI의 결정에 λŒ€ν•΄ μ‚¬μš©μžκ°€ 'μ„€λͺ…받을 ꢌ리'λ₯Ό λ²•μ μœΌλ‘œ 보μž₯λ°›λŠ” μΆ”μ„Έ. 2. **μ£Όμš” 기법**: * **LIME/SHAP**: μž…λ ₯κ°’μ˜ λ³€ν™”κ°€ 결과에 λ―ΈμΉ˜λŠ” 영ν–₯을 μΈ‘μ •ν•˜μ—¬ μ€‘μš”λ„ ν‘œμ‹œ. * **Attention Maps**: λͺ¨λΈμ΄ μ΄λ―Έμ§€μ˜ μ–΄λŠ λΆ€λΆ„μ΄λ‚˜ ν…μŠ€νŠΈμ˜ μ–΄λŠ 단어에 μ§‘μ€‘ν–ˆλŠ”μ§€ κ°€μ‹œν™”. --- - **μΆ”μΆœλœ νŒ¨ν„΄:** λͺ¨λΈ λ‚΄λΆ€μ˜ λ³΅μž‘ν•œ μ—°μ‚° 과정을 μ€‘μš”λ„ λ§΅(Heatmap), νŠΉμ§• 기여도(Feature Attribution), ν˜Ήμ€ μžμ—°μ–΄ μ„€λͺ…μœΌλ‘œ λ³€ν™˜ν•˜μ—¬ μ‚¬μš©μžμ—κ²Œ 투λͺ…성을 μ œκ³΅ν•˜λŠ” 해석 νŒ¨ν„΄. - **μ£Όμš” 기법:** - **LIME / SHAP:** λͺ¨λΈμ˜ μ’…λ₯˜μ™€ 상관없이 νŠΉμ • μž…λ ₯에 λŒ€ν•œ 예츑 κ·Όκ±°λ₯Ό 뢄석 (Post-hoc). - **Attention Visualization:** 트랜슀포머 λͺ¨λΈμ΄ μ–΄λ–€ λ‹¨μ–΄λ‚˜ 이미지 μ˜μ—­μ— μ§‘μ€‘ν–ˆλŠ”μ§€ μ‹œκ°ν™”. - **CAM (Class Activation Map):** 이미지 λΆ„λ₯˜ μ‹œ μ–΄λ–€ ν”½μ…€ μ˜μ—­μ΄ 결정에 κ²°μ •μ μ΄μ—ˆλŠ”μ§€ λ…ΈμΆœ. - **Rule-based Surro[[Gates|Gates]]:** λ³΅μž‘ν•œ λͺ¨λΈμ„ λ‹¨μˆœν•œ μ˜μ‚¬κ²°μ • λ‚˜λ¬΄ λ“±μœΌλ‘œ κ·Όμ‚¬ν•˜μ—¬ μ„€λͺ…. - **의의:** 의료, 금육, 법λ₯  λ“± κ³ μœ„ν—˜ μ˜μ‚¬κ²°μ • λΆ„μ•Όμ—μ„œ AI λ„μž…μ„ κ°€λŠ₯ν•˜κ²Œ ν•˜λŠ” ν•„μˆ˜ 쑰건. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & Updates) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌**: κ³Όκ±°μ—λŠ” μ„±λŠ₯(Accuracy)κ³Ό μ„€λͺ…λ ₯(Interpretability)이 λ°˜λΉ„λ‘€ κ΄€κ³„λΌλŠ” 정책이 μ£Όλ₯˜μ˜€μœΌλ‚˜, ν˜„λŒ€ 정책은 μ§€λŠ₯이 λ†’μœΌλ©΄μ„œλ„ 슀슀둜의 논리 ꡬ쑰λ₯Ό λΈŒλ¦¬ν•‘ν•˜λŠ” 'λ‚΄μž¬μ  μ„€λͺ… μ •μ±…'을 좔ꡬ함(RL Update). - **μ •μ±… λ³€ν™”(RL Update)**: λ‹¨μˆœ κ°€μ‹œν™”λ₯Ό λ„˜μ–΄, AIκ°€ μžμ‹ μ˜ 사고 과정을 λ‹¨κ³„λ³„λ‘œ ν’€μ–΄μ„œ μ„€λͺ…ν•˜λŠ” CoT(Chain-of-Thought) 정책이 LLM μ‹œλŒ€μ˜ 핡심 XAI λ°©λ²•λ‘ μœΌλ‘œ 뢀상함. (Chain-of-Thought와 μ—°κ²°) --- - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌:** λ‹¨μˆœνžˆ μ„±λŠ₯(Accuracy)만 λ†’μœΌλ©΄ λœλ‹€λŠ” κ΄€μ μ—μ„œ, μ„±λŠ₯을 쑰금 ν¬μƒν•˜λ”λΌλ„ 'μ„€λͺ… κ°€λŠ₯μ„±(Interpretability)'이 λ‹΄λ³΄λ˜μ–΄μ•Ό ν•œλ‹€λŠ” μ‹ λ’° 쀑심 κ΄€μ μœΌλ‘œ μ „ν™˜. - **μ •μ±… λ³€ν™”:** Antigravity ν”„λ‘œμ νŠΈλŠ” μ—μ΄μ „νŠΈκ°€ μ œμ•ˆν•œ μ½”λ“œλ‚˜ 지식 보강 λ‚΄μš©μ— λŒ€ν•΄, μ°Έκ³ ν•œ μ†ŒμŠ€ λ¬Έμ„œμ™€ μΆ”λ‘  과정을 'Rationale' μ„Έμ…˜μœΌλ‘œ λͺ…μ‹œν•˜μ—¬ μ‚¬μš©μž 검증을 돕도둝 섀계함. ## πŸ”— 지식 μ—°κ²° (Graph) - [[Ethics & AI|Ethics & AI]], [[Chain-of-Thought (CoT ᄉᅑ고 ᄉᅑ슬)|Chain-of-Thought (CoT 사고 μ‚¬μŠ¬)]], Trust and Perspective, Transparency, Bias-Variance Tradeoff - **Modern Tech/Tools**: SHAP, LIME, Captum (PyTorch), Integrated Gradients. --- --- - [[Trustworthy-AI|Trustworthy-AI]], AI-Ethics, Decision-Making, [[Feature-Engineering|Feature-Engineering]] - **Raw Source:** 10_Wiki/Topics/AI/Explainable-AI-XAI.md ## πŸ€– LLM ν™œμš© 힌트 (How to Use This Knowledge) **μ–Έμ œ 이 지식을 μ“°λŠ”κ°€:** - *(TODO)* **μ–Έμ œ μ“°λ©΄ μ•ˆ λ˜λŠ”κ°€:** - *(TODO)* ## πŸ§ͺ 검증 μƒνƒœ (Validation) - **정보 μƒνƒœ:** needs_review - **좜처 신뒰도:** A - **κ²€ν†  이유:** *(P-Reinforce Phase 1 μžλ™ μ •κ·œν™”. λ³Έλ¬Έ 검증 ν•„μš”.)* ## 🧬 쀑볡 검사 (Duplicate Check) - **κΈ°μ‘΄ μœ μ‚¬ λ¬Έμ„œ:** *(TODO: μΈλ±μ„œ ν΄λŸ¬μŠ€ν„° 리포트 μ°Έμ‘°)* - **처리 방식:** UPDATE (μžλ™ μ •κ·œν™”) - **처리 이유:** Phase 1 μ •κ·œν™” β€” μ˜› ν…œν”Œλ¦Ώ/λˆ„λ½ ν•„λ“œ 보강. ## πŸ•“ λ³€κ²½ 이λ ₯ (Changelog) | λ‚ μ§œ | λ³€κ²½ λ‚΄μš© | 처리 방식 | 신뒰도 | |------|-----------|-----------|--------| | 2026-05-08 | P-Reinforce Phase 1 μ •κ·œν™” (frontmatter + 헀더 ν‘œμ€€ν™”) | UPDATE | A | ## πŸ’» μ½”λ“œ νŒ¨ν„΄ (Code Patterns) **νŒ¨ν„΄ 1:** *(TODO: 이 ν”„λ‘œμ νŠΈ μ»¨λ²€μ…˜ λ°˜μ˜ν•œ ꡬ쑰 μŠ€μΌˆλ ˆν†€)* ```text # TODO ``` ## πŸ€” μ˜μ‚¬κ²°μ • κΈ°μ€€ (Decision Criteria) **선택 Aλ₯Ό 써야 ν•  λ•Œ:** - *(TODO)* **선택 Bλ₯Ό 써야 ν•  λ•Œ:** - *(TODO)* **κΈ°λ³Έκ°’:** > *(TODO)* ## ❌ μ•ˆν‹°νŒ¨ν„΄ (Anti-Patterns) - **[μ•ˆν‹°νŒ¨ν„΄]:** *(TODO: 무엇을 ν•˜λ©΄ μ•ˆ λ˜λŠ”κ°€ + 이유 + λŒ€μ‹  무엇을)*