--- id: wiki-2026-0508-mechanistic-interpretability-ste title: "Mechanistic Interpretability & Steering" category: 10_Wiki/Topics status: needs_review canonical_id: self aliases: [P-Reinforce-AUTO-MCIS-001] duplicate_of: none source_trust_level: A confidence_score: 0.95 tags: [auto-reinforced, mechanistic-interpretability, steering-vectors, sae, sparse-autoencoders, model-understanding] raw_sources: [] last_reinforced: 2026-05-04 github_commit: pending inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08) tech_stack: language: unspecified framework: unspecified --- # [[Mechanistic Interpretability & Steering|Mechanistic Interpretability & Steering]] ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "μ§€λŠ₯의 역곡학: λΈ”λž™λ°•μŠ€λ‘œ μ—¬κ²¨μ‘Œλ˜ AI의 λ‚΄λΆ€ 신경망을 ν•΄λΆ€ν•˜μ—¬ νŠΉμ • λ‰΄λŸ°μ΄ μ–΄λ–€ κ°œλ…(예: '정직', 'μ½”λ”©')을 λ‹΄λ‹Ήν•˜λŠ”μ§€ μ°Ύμ•„λ‚΄κ³ , 이λ₯Ό 직접 쑰절(Steering)ν•˜μ—¬ λͺ¨λΈμ˜ μ„±κ²©μ΄λ‚˜ λŠ₯λ ₯을 μ‹€μ‹œκ°„μœΌλ‘œ λ°”κΎΈλŠ” 기술." ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) 기계적 해석 κ°€λŠ₯μ„±(Mechanistic Interpretability)은 λͺ¨λΈμ˜ λ‚΄λΆ€ μž‘λ™ 원리λ₯Ό λ‰΄λŸ° λ‹¨μœ„μ—μ„œ μ΄ν•΄ν•˜λ €λŠ” 학문이며, μŠ€ν‹°μ–΄λ§(Steering)은 κ·Έ 이해λ₯Ό λ°”νƒ•μœΌλ‘œ λͺ¨λΈμ„ μ œμ–΄ν•˜λŠ” κΈ°μˆ μž…λ‹ˆλ‹€. 1. **SAE (Sparse Autoencoders)**: * **원리**: λͺ¨λΈμ˜ μˆ˜μ–΅ 개 λ‰΄λŸ° 속에 λ³΅ν•©μ μœΌλ‘œ μ–½ν˜€ μžˆλŠ” κ°œλ…λ“€μ„ λΆ„λ¦¬ν•˜μ—¬, 인간이 이해할 수 μžˆλŠ” 단일 κ°œλ…(Feature)으둜 μΆ”μΆœν•˜λŠ” κΈ°μˆ μž…λ‹ˆλ‹€. * **의의**: "이 λ‰΄λŸ° 그룹은 'κ³¨λ“ κ²Œμ΄νŠΈ κ΅λŸ‰'에 λ°˜μ‘ν•œλ‹€"와 같은 ꡬ체적인 지도λ₯Ό 그릴 수 있게 ν•©λ‹ˆλ‹€. (Anthropic의 연ꡬ 사둀) 2. **Steering Vectors (μŠ€ν‹°μ–΄λ§ 벑터)**: * **κ°œλ…**: νŠΉμ • κ°œλ…(예: '무해함', '논리적 μΆ”λ‘ ')κ³Ό κ΄€λ ¨λœ μ‹ κ²½λ§μ˜ ν™œμ„±ν™” νŒ¨ν„΄μ„ μΆ”μΆœν•˜μ—¬ λ²‘ν„°λ‘œ λ§Œλ“­λ‹ˆλ‹€. * **ν™œμš©**: μΆ”λ‘  μ‹œ 이 벑터λ₯Ό λͺ¨λΈμ˜ 쀑간 λ ˆμ΄μ–΄μ— μ£Όμž…(Injection)ν•˜μ—¬, λͺ¨λΈμ΄ 더 μ •μ§ν•˜κ²Œ λ‹΅ν•˜κ²Œ ν•˜κ±°λ‚˜ νŠΉμ • μ£Όμ œμ— μ§‘μ€‘ν•˜κ²Œ μœ λ„ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 3. **Superposition (쀑첩)**: * λͺ¨λΈμ΄ μ œν•œλœ λ‰΄λŸ° 수둜 λ°©λŒ€ν•œ 지식을 μ €μž₯ν•˜κΈ° μœ„ν•΄, ν•˜λ‚˜μ˜ λ‰΄λŸ°μ΄ μ—¬λŸ¬ κ°œλ…μ— λ™μ‹œμ— κ΄€μ—¬ν•˜λŠ” ν˜„μƒμž…λ‹ˆλ‹€. 해석 κ°€λŠ₯μ„± μ—°κ΅¬λŠ” 이 쀑첩을 ν•΄μ†Œν•˜λŠ” 것이 주된 λͺ©ν‘œμž…λ‹ˆλ‹€. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & Updates) * **μ„±λŠ₯ μ €ν•˜**: νŠΉμ • κ°œλ…μ„ λ„ˆλ¬΄ κ°•ν•˜κ²Œ μŠ€ν‹°μ–΄λ§ν•˜λ©΄ λͺ¨λΈμ˜ 일반적인 μ–Έμ–΄ λŠ₯λ ₯이 λ§κ°€μ§€κ±°λ‚˜ 닡변이 λΆ€μžμ—°μŠ€λŸ¬μ›Œμ§ˆ 수 μžˆμŠ΅λ‹ˆλ‹€. * **λ³΅μž‘μ„±**: κ±°λŒ€ λͺ¨λΈμ˜ λͺ¨λ“  κ°œλ…μ„ μ™„λ²½νžˆ ν•΄μ„ν•˜λŠ” 것은 μ—¬μ „νžˆ 초보적인 단계이며, λ§‰λŒ€ν•œ μ—°μ‚°λŸ‰μ΄ ν•„μš”ν•©λ‹ˆλ‹€. ## πŸ”— 지식 μ—°κ²° (Graph) * **μƒμœ„ κ°œλ…**: [[AI Safety & Constitutional AI|AI Safety & Constitutional AI]], [[Deep Learning Theory|Deep Learning Theory]] * **κ΄€λ ¨ 연ꡬ**: Anthropic (Golden Gate Claude), OpenAI (Microscope) * **μ—°κ΄€ 기술**: [[Fine-Tuning & Alignment|Fine-Tuning & Alignment]] --- *Last updated: 2026-05-04* ## πŸ€– LLM ν™œμš© 힌트 (How to Use This Knowledge) **μ–Έμ œ 이 지식을 μ“°λŠ”κ°€:** - *(TODO)* **μ–Έμ œ μ“°λ©΄ μ•ˆ λ˜λŠ”κ°€:** - *(TODO)* ## πŸ§ͺ 검증 μƒνƒœ (Validation) - **정보 μƒνƒœ:** needs_review - **좜처 신뒰도:** A - **κ²€ν†  이유:** *(P-Reinforce Phase 1 μžλ™ μ •κ·œν™”. λ³Έλ¬Έ 검증 ν•„μš”.)* ## 🧬 쀑볡 검사 (Duplicate Check) - **κΈ°μ‘΄ μœ μ‚¬ λ¬Έμ„œ:** *(TODO: μΈλ±μ„œ ν΄λŸ¬μŠ€ν„° 리포트 μ°Έμ‘°)* - **처리 방식:** UPDATE (μžλ™ μ •κ·œν™”) - **처리 이유:** Phase 1 μ •κ·œν™” β€” μ˜› ν…œν”Œλ¦Ώ/λˆ„λ½ ν•„λ“œ 보강. ## πŸ•“ λ³€κ²½ 이λ ₯ (Changelog) | λ‚ μ§œ | λ³€κ²½ λ‚΄μš© | 처리 방식 | 신뒰도 | |------|-----------|-----------|--------| | 2026-05-08 | P-Reinforce Phase 1 μ •κ·œν™” (frontmatter + 헀더 ν‘œμ€€ν™”) | UPDATE | A | ## πŸ’» μ½”λ“œ νŒ¨ν„΄ (Code Patterns) **νŒ¨ν„΄ 1:** *(TODO: 이 ν”„λ‘œμ νŠΈ μ»¨λ²€μ…˜ λ°˜μ˜ν•œ ꡬ쑰 μŠ€μΌˆλ ˆν†€)* ```text # TODO ``` ## πŸ€” μ˜μ‚¬κ²°μ • κΈ°μ€€ (Decision Criteria) **선택 Aλ₯Ό 써야 ν•  λ•Œ:** - *(TODO)* **선택 Bλ₯Ό 써야 ν•  λ•Œ:** - *(TODO)* **κΈ°λ³Έκ°’:** > *(TODO)* ## ❌ μ•ˆν‹°νŒ¨ν„΄ (Anti-Patterns) - **[μ•ˆν‹°νŒ¨ν„΄]:** *(TODO: 무엇을 ν•˜λ©΄ μ•ˆ λ˜λŠ”κ°€ + 이유 + λŒ€μ‹  무엇을)*