28 lines
1.6 KiB
Markdown
28 lines
1.6 KiB
Markdown
---
|
|
id: P-REINFORCE-AI-CIRCUIT
|
|
category: "[[10_Wiki/💡 Topics/AI]]"
|
|
confidence_score: 0.98
|
|
tags: [Interpretability, Neural Networks, Circuit Discovery, Mechanistic Interpretability]
|
|
last_reinforced: 2026-04-20
|
|
---
|
|
|
|
# [[Circuit-Discovery]] (회로 발견)
|
|
|
|
## 📌 한 줄 통찰 (The Karpathy Summary)
|
|
> "인공신경망은 블랙박스가 아니다." 신경망 내부의 수억 개 파라미터들 사이에서 특정 로직(예: 덧셈, 문법 파악)을 수행하는 고유의 '신경 회로'를 찾아 지질학적으로 분석하는 고난도 기술이다.
|
|
|
|
## 📖 구조화된 지식 (Synthesized Content)
|
|
- **Mechanistic Interpretability**:
|
|
- 모델의 입력을 조금씩 바꿔보며 특정 뉴런들이 어떻게 활성화되는지(Activation Patching 등)를 분석하여, 가중치 속에 숨겨진 알고리즘을 역설계한다.
|
|
- **Induction Heads**:
|
|
- 이전에 본 패턴을 기억하고 반복될 때 활성화되는 신경망 내의 특정 구조. LLM의 문맥 이해 능력의 핵심 원동력 중 하나로 밝혀졌다.
|
|
- **Reverse Engineering**:
|
|
- 학습된 모델을 '읽기'를 통해 그 모델이 어떤 수학적 전략을 사용해 문제를 푸는지 인간의 언어로 설명하는 과정.
|
|
|
|
## ⚠️ 모순 및 업데이트 (RL Update)
|
|
- 대규모 모델(Llama-3, GPT-4)로 갈수록 회로가 너무 복잡해져서 일일이 분석하는 것이 불가능에 가까워진다. 최근에는 다른 '작은 AI'를 시켜서 큰 AI의 회로를 분석하게 하는 자동화된 해석 연구가 진행 중이다.
|
|
|
|
## 🔗 지식 연결 (Graph)
|
|
- Related: [[Automated-Reasoning]] , [[Complexity-Theory]]
|
|
- Foundation: [[Information Theory]]
|