--- id: [[P-Reinforce|P-Reinforce]]-AI-MECH-INTERP category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 0.98 tags: [AI, [[Interpretability|Interpretability]], MechanisticInterpretability, AISafety] last_reinforced: 2026-04-20 --- # [[Mechanistic Interpretability (α„€α…΅α„€α…¨α„Œα…₯ᆨ ᄒᅒᄉα…₯ᆨ ᄀᅑ능ᄉα…₯α†Ό)|Mechanistic Interpretability (기계적 해석 κ°€λŠ₯μ„±)]] ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "AI 신경망을 λœ―μ–΄ λ¦¬λ²„μŠ€ μ—”μ§€λ‹ˆμ–΄λ§ν•˜λŠ” ν˜„λŒ€μ˜ κ³ λ“± ν•΄λΆ€ν•™." λͺ¨λΈμ„ λ‹¨μˆœν•œ λΈ”λž™λ°•μŠ€λ‘œ 보지 μ•Šκ³ , λ‚΄λΆ€μ˜ κ°€μ€‘μΉ˜μ™€ λ‰΄λŸ°λ“€μ΄ μ–΄λ–»κ²Œ κ²°ν•©ν•˜μ—¬ ꡬ체적인 'μ•Œκ³ λ¦¬μ¦˜'을 κ΅¬ν˜„ν•˜λŠ”μ§€ ν•˜λ‚˜ν•˜λ‚˜ λ°ν˜€λ‚΄λŠ” κ·Ήλ„μ˜ μ •λ°€ 뢄석 κΈ°μˆ μ΄λ‹€. ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) - **The Mission**: λͺ¨λΈμ˜ κ°€μ€‘μΉ˜λ₯Ό 보고 "이 뢀뢄은 문법을 μ²΄ν¬ν•˜κ³ , μ € 뢀뢄은 감정을 νŒŒμ•…ν•œλ‹€"라고 μ½”λ“œλ‘œ μ„€λͺ…ν•  수 μžˆμ„ μ •λ„λ‘œ 깊게 μ΄ν•΄ν•˜λŠ” 것. - **Key Methodologies**: - **Logit Lens**: 각 측이 μ˜ˆμΈ‘ν•˜λŠ” 단어가 측을 κ±°λ“­ν• μˆ˜λ‘ μ–΄λ–»κ²Œ λ³€ν•˜λŠ”μ§€ κ΄€μ°°. - **Path Patching**: νŠΉμ • 정보가 λͺ¨λΈμ˜ μ–΄λŠ ν˜ˆκ΄€(Path)을 타고 흐λ₯΄λŠ”μ§€ 좔적. - **Superposition Theory**: λ‰΄λŸ° ν•˜λ‚˜κ°€ μ—¬λŸ¬ 의미λ₯Ό λ™μ‹œμ— λ‹΄κ³  μžˆλŠ” '쀑첩' ν˜„μƒμ„ 뢄해함. - **Significance**: AIκ°€ 우리λ₯Ό 속이렀 ν•˜κ±°λ‚˜(Deceptive [[Alignment|Alignment]]) μœ„ν—˜ν•œ 생각을 ν•˜λŠ”μ§€ 사전에 감지할 수 μžˆλŠ” μœ μΌν•œ 기술적 λ°©νŒ¨λ‹€. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (RL Update) - μˆ˜μ²œμ–΅ 개의 νŒŒλΌλ―Έν„°λ₯Ό κ°€μ§„ λͺ¨λΈμ„ μˆ˜μž‘μ—…μœΌλ‘œ λΆ„μ„ν•˜λŠ” 것은 λΆˆκ°€λŠ₯ν•˜λ‹€. λ”°λΌμ„œ μ΅œκ·Όμ—λŠ” **'AIλ₯Ό μ‚¬μš©ν•˜μ—¬ AIλ₯Ό 해석'**ν•˜λŠ” μžλ™ν™”λœ 해석 기술(Auto-Interp) 연ꡬ가 ν™œλ°œν•˜λ©°, μ•€μŠ€λ‘œν”½(Anthropic)의 'Dictionary Learning' 기법이 이 λΆ„μ•Όμ˜ μ΅œμ „μ„ μ„ 달리고 μžˆλ‹€. ## πŸ”— 지식 μ—°κ²° (Graph) - Related: [[Circuit Discovery (α„’α…¬α„…α…© ᄇᅑᆯ견)|Circuit Discovery (회둜 발견)]] , [[Explainable-AI (XAI)|Explainable-AI (XAI)]] - Risk Defense: [[Deceptive Alignment (α„€α…΅α„†α…‘α†«α„Œα…₯ᆨ α„Œα…₯α†Όα„…α…§α†―)|Deceptive Alignment (기만적 μ •λ ¬)]]