1.6 KiB
1.6 KiB
id, category, confidence_score, tags, last_reinforced
| id | category | confidence_score | tags | last_reinforced | ||||
|---|---|---|---|---|---|---|---|---|
| P-REINFORCE-AI-CIRCUIT | 10_Wiki/💡 Topics/AI | 0.98 |
|
2026-04-20 |
Circuit-Discovery (회로 발견)
📌 한 줄 통찰 (The Karpathy Summary)
"인공신경망은 블랙박스가 아니다." 신경망 내부의 수억 개 파라미터들 사이에서 특정 로직(예: 덧셈, 문법 파악)을 수행하는 고유의 '신경 회로'를 찾아 지질학적으로 분석하는 고난도 기술이다.
📖 구조화된 지식 (Synthesized Content)
- Mechanistic Interpretability:
- 모델의 입력을 조금씩 바꿔보며 특정 뉴런들이 어떻게 활성화되는지(Activation Patching 등)를 분석하여, 가중치 속에 숨겨진 알고리즘을 역설계한다.
- Induction Heads:
- 이전에 본 패턴을 기억하고 반복될 때 활성화되는 신경망 내의 특정 구조. LLM의 문맥 이해 능력의 핵심 원동력 중 하나로 밝혀졌다.
- Reverse Engineering:
- 학습된 모델을 '읽기'를 통해 그 모델이 어떤 수학적 전략을 사용해 문제를 푸는지 인간의 언어로 설명하는 과정.
⚠️ 모순 및 업데이트 (RL Update)
- 대규모 모델(Llama-3, GPT-4)로 갈수록 회로가 너무 복잡해져서 일일이 분석하는 것이 불가능에 가까워진다. 최근에는 다른 '작은 AI'를 시켜서 큰 AI의 회로를 분석하게 하는 자동화된 해석 연구가 진행 중이다.
🔗 지식 연결 (Graph)
- Related: Automated-Reasoning , Complexity-Theory
- Foundation: Information Theory