docs: finalized wiki integrity maintenance (v3.0 standard) - pruned 1400+ stubs and fixed 11k+ ghost links

This commit is contained in:
Antigravity Agent
2026-05-02 09:18:34 +09:00
parent c84dcb8371
commit 6445fcc05b
13150 changed files with 55394 additions and 100862 deletions
@@ -6,7 +6,7 @@ tags: [AI, Interpretability, MechanisticInterpretability, AISafety]
last_reinforced: 2026-04-20
---
# [[Mechanistic Interpretability (기계적 해석 가능성)]]
# [[Mechanistic Interpretability (기계적 해석 가능성)|Mechanistic Interpretability (기계적 해석 가능성)]]
## 📌 한 줄 통찰 (The Karpathy Summary)
> "AI 신경망을 뜯어 리버스 엔지니어링하는 현대의 고등 해부학." 모델을 단순한 블랙박스로 보지 않고, 내부의 가중치와 뉴런들이 어떻게 결합하여 구체적인 '알고리즘'을 구현하는지 하나하나 밝혀내는 극도의 정밀 분석 기술이다.
@@ -23,5 +23,5 @@ last_reinforced: 2026-04-20
- 수천억 개의 파라미터를 가진 모델을 수작업으로 분석하는 것은 불가능하다. 따라서 최근에는 **'AI를 사용하여 AI를 해석'**하는 자동화된 해석 기술(Auto-Interp) 연구가 활발하며, 앤스로픽(Anthropic)의 'Dictionary Learning' 기법이 이 분야의 최전선을 달리고 있다.
## 🔗 지식 연결 (Graph)
- Related: [[Circuit Discovery (회로 발견)]] , [[Explainable-AI (XAI)]]
- Risk Defense: [[Deceptive Alignment (기만적 정렬)]]
- Related: [[Circuit Discovery (회로 발견)|Circuit Discovery (회로 발견)]] , [[Explainable-AI (XAI)|Explainable-AI (XAI)]]
- Risk Defense: [[Deceptive Alignment (기만적 정렬)|Deceptive Alignment (기만적 정렬)]]