[G1-Sync] Manual knowledge update
This commit is contained in:
@@ -2,7 +2,7 @@
|
||||
id: CIRCUIT-001
|
||||
category: "10_Wiki/💡 Topics/AI"
|
||||
confidence_score: 1.0
|
||||
tags: [ai-interpretability, mechanistic-interpretability, neural-networks, circuits]
|
||||
tags: [ai-[[Interpretability]], mechanistic-interpretability, neural-networks, circuits]
|
||||
last_reinforced: 2026-04-26
|
||||
---
|
||||
|
||||
@@ -21,7 +21,7 @@ last_reinforced: 2026-04-26
|
||||
|
||||
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
|
||||
- **과거 데이터와의 충돌:** 단순 시각화(Saliency Map) 수준을 넘어, 모델 내부에서 수학적으로 정의 가능한 알고리즘을 찾아내는 정교한 단계로 진화.
|
||||
- **정책 변화:** 모델의 안전성 검증(Alignment)을 위해 잠재적인 유해 논리 회로가 형성되었는지 감지하는 도구로 활용 비중 확대.
|
||||
- **정책 변화:** 모델의 안전성 검증([[Alignment]])을 위해 잠재적인 유해 논리 회로가 형성되었는지 감지하는 도구로 활용 비중 확대.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
- **Parent:** 10_Wiki/💡 Topics/AI
|
||||
|
||||
Reference in New Issue
Block a user