[G1-Sync] Manual knowledge update

2026-04-30 22:42:02 +09:00
parent 0bd4f19e38
commit c36c0644a1
4888 changed files with 18470 additions and 18602 deletions
@@ -1,8 +1,8 @@
 ---
-id: P-REINFORCE-AI-SAFETY
+id: [[P-Reinforce]]-AI-SAFETY
 category: "10_Wiki/💡 Topics/AI"
 confidence_score: 1.0
-tags: [AI Safety, Alignment, Risk Management, AI Ethics]
+tags: [[[AI Safety]], [[Alignment]], Risk [[Management]], AI Ethics]
 last_reinforced: 2026-04-20
 ---

@@ -12,9 +12,9 @@ last_reinforced: 2026-04-20
 > "브레이크 없는 기차는 재앙이다." 인간보다 강력한 지능이 탄생했을 때, 그 지능이 인간의 목표와 문명을 파괴하지 않도록 기술적/방어적 보호막을 구축하는 가장 시급한 연구 분야다.

 ## 📖 구조화된 지식 (Synthesized Content)
- **Robustness**:
+- **[[Robustness]]**:
    - 적대적 공격(Adversarial Attack)이나 처음 보는 돌발 상황에서도 AI가 오작동하지 않고 안전하게 관리되는 성질.
- **Interpretability**:
+- **[[Interpretability]]**:
    - 신경망이라는 블랙박스 내부에서 어떤 논리 구조로 판단을 내리는지 인간이 읽을 수 있게 시각화하고 분석하는 기술(Mechanistic Interpretability).
 - **Scalable Oversight**:
    - 인간이 이해하기 힘든 복잡한 지능을 가진 AI를 다른 AI가 감시하게 하여, 인간의 통제력을 잃지 않게 하는 감시 체계.
@@ -24,4 +24,4 @@ last_reinforced: 2026-04-20

 ## 🔗 지식 연결 (Graph)
 - Related: [[AI-Alignment]] , AI-Governance
- Strategy: [[Reliability_Safety_First]]
+- [[Strategy]]: [[Reliability_Safety_First]]