---
id: P-REINFORCE-AI-CIRCUIT
category: "[[10_Wiki/💡 Topics/AI]]"
confidence_score: 0.98
tags: [Interpretability, Neural Networks, Circuit Discovery, Mechanistic Interpretability]
last_reinforced: 2026-04-20
---

# [[Circuit-Discovery]] (회로 발견)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "인공신경망은 블랙박스가 아니다." 신경망 내부의 수억 개 파라미터들 사이에서 특정 로직(예: 덧셈, 문법 파악)을 수행하는 고유의 '신경 회로'를 찾아 지질학적으로 분석하는 고난도 기술이다.

## 📖 구조화된 지식 (Synthesized Content)
- **Mechanistic Interpretability**:
    - 모델의 입력을 조금씩 바꿔보며 특정 뉴런들이 어떻게 활성화되는지(Activation Patching 등)를 분석하여, 가중치 속에 숨겨진 알고리즘을 역설계한다.
- **Induction Heads**:
    - 이전에 본 패턴을 기억하고 반복될 때 활성화되는 신경망 내의 특정 구조. LLM의 문맥 이해 능력의 핵심 원동력 중 하나로 밝혀졌다.
- **Reverse Engineering**:
    - 학습된 모델을 '읽기'를 통해 그 모델이 어떤 수학적 전략을 사용해 문제를 푸는지 인간의 언어로 설명하는 과정.

## ⚠️ 모순 및 업데이트 (RL Update)
- 대규모 모델(Llama-3, GPT-4)로 갈수록 회로가 너무 복잡해져서 일일이 분석하는 것이 불가능에 가까워진다. 최근에는 다른 '작은 AI'를 시켜서 큰 AI의 회로를 분석하게 하는 자동화된 해석 연구가 진행 중이다.

## 🔗 지식 연결 (Graph)
- Related: [[Automated-Reasoning]] , [[Complexity-Theory]]
- Foundation: [[Information Theory]]