feat: complete wikification of War Commander batch 1&2 and final grey dot cleanup
This commit is contained in:
@@ -1,6 +1,6 @@
|
||||
---
|
||||
id: P-REINFORCE-AUTO-ARCO-001
|
||||
category: "[[10_Wiki/💡 Topics/AI]]"
|
||||
category: "10_Wiki/💡 Topics/AI"
|
||||
confidence_score: 0.95
|
||||
tags: [auto-reinforced, logical-reasoning, counterexample, debate, critical-thinking, philosophy]
|
||||
last_reinforced: 2026-04-20
|
||||
@@ -27,6 +27,6 @@ last_reinforced: 2026-04-20
|
||||
- **정책 변화(RL Update)**: AI 모델의 안전성 검증 정책에서, 모델이 "나는 인간을 해치지 않는다"고 장담하더라도 레드팀(Red-teaming)이 단 하나의 공격 성공 사례(반례)를 찾아내면 안전 등급을 강등시키는 'Worst-case 기반 안전 정책'이 표준이 됨.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
- [[Logic]], [[Philosophy of Science]], [[Anomaly-Detection]], [[Self-Correction Mechanisms]], [[Type 1 vs Type 2 Errors]]
|
||||
- [[Logic]], Philosophy of Science, [[Anomaly-Detection]], [[Self-Correction Mechanisms]], [[Type 1 vs Type 2 Errors]]
|
||||
- **Modern Tech/Tools**: Formal verification methods, Adversarial red-teaming.
|
||||
---
|
||||
|
||||
Reference in New Issue
Block a user