bluemsi/2nd

Files

T

bluemsi 3ffd96fa46 [P-Reinforce] Substantial content added to 10 more Cognitive/System nodes (Batch 03)

2026-04-20 16:58:16 +09:00

1.6 KiB

Raw Blame History

id, category, confidence_score, tags, last_reinforced

id

category

confidence_score

tags

last_reinforced

P-REINFORCE-AI-CIRCUIT

10_Wiki/💡 Topics/AI

0.98

Interpretability

Neural Networks

Circuit Discovery

Mechanistic Interpretability

2026-04-20

Circuit-Discovery (회로 발견)

📌 한 줄 통찰 (The Karpathy Summary)

"인공신경망은 블랙박스가 아니다." 신경망 내부의 수억 개 파라미터들 사이에서 특정 로직(예: 덧셈, 문법 파악)을 수행하는 고유의 '신경 회로'를 찾아 지질학적으로 분석하는 고난도 기술이다.

📖 구조화된 지식 (Synthesized Content)

Mechanistic Interpretability:
- 모델의 입력을 조금씩 바꿔보며 특정 뉴런들이 어떻게 활성화되는지(Activation Patching 등)를 분석하여, 가중치 속에 숨겨진 알고리즘을 역설계한다.
Induction Heads:
- 이전에 본 패턴을 기억하고 반복될 때 활성화되는 신경망 내의 특정 구조. LLM의 문맥 이해 능력의 핵심 원동력 중 하나로 밝혀졌다.
Reverse Engineering:
- 학습된 모델을 '읽기'를 통해 그 모델이 어떤 수학적 전략을 사용해 문제를 푸는지 인간의 언어로 설명하는 과정.

⚠️ 모순 및 업데이트 (RL Update)

대규모 모델(Llama-3, GPT-4)로 갈수록 회로가 너무 복잡해져서 일일이 분석하는 것이 불가능에 가까워진다. 최근에는 다른 '작은 AI'를 시켜서 큰 AI의 회로를 분석하게 하는 자동화된 해석 연구가 진행 중이다.

🔗 지식 연결 (Graph)

Related: Automated-Reasoning , Complexity-Theory
Foundation: Information Theory