Files
2nd/AI/Circuit Discovery (ȸ ߰).md
T

1.6 KiB

id, category, confidence_score, tags, last_reinforced
id category confidence_score tags last_reinforced
P-REINFORCE-AI-CIRCUIT 10_Wiki/💡 Topics/AI 0.98
Interpretability
Neural Networks
Circuit Discovery
Mechanistic Interpretability
2026-04-20

Circuit-Discovery (회로 발견)

📌 한 줄 통찰 (The Karpathy Summary)

"인공신경망은 블랙박스가 아니다." 신경망 내부의 수억 개 파라미터들 사이에서 특정 로직(예: 덧셈, 문법 파악)을 수행하는 고유의 '신경 회로'를 찾아 지질학적으로 분석하는 고난도 기술이다.

📖 구조화된 지식 (Synthesized Content)

  • Mechanistic Interpretability:
    • 모델의 입력을 조금씩 바꿔보며 특정 뉴런들이 어떻게 활성화되는지(Activation Patching 등)를 분석하여, 가중치 속에 숨겨진 알고리즘을 역설계한다.
  • Induction Heads:
    • 이전에 본 패턴을 기억하고 반복될 때 활성화되는 신경망 내의 특정 구조. LLM의 문맥 이해 능력의 핵심 원동력 중 하나로 밝혀졌다.
  • Reverse Engineering:
    • 학습된 모델을 '읽기'를 통해 그 모델이 어떤 수학적 전략을 사용해 문제를 푸는지 인간의 언어로 설명하는 과정.

⚠️ 모순 및 업데이트 (RL Update)

  • 대규모 모델(Llama-3, GPT-4)로 갈수록 회로가 너무 복잡해져서 일일이 분석하는 것이 불가능에 가까워진다. 최근에는 다른 '작은 AI'를 시켜서 큰 AI의 회로를 분석하게 하는 자동화된 해석 연구가 진행 중이다.

🔗 지식 연결 (Graph)