[G1-Sync] Manual knowledge update

This commit is contained in:
Antigravity Agent
2026-04-30 22:42:02 +09:00
parent 0bd4f19e38
commit c36c0644a1
4888 changed files with 18470 additions and 18602 deletions
+2 -2
View File
@@ -2,7 +2,7 @@
id: AI-SEC-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 1.0
tags: [ai, llm-security, prompt-injection, ai-safety, cybersecurity, red-teaming]
tags: [ai, llm-security, [[prompt]]-injection, ai-safety, cybersecurity, red-teaming]
last_reinforced: 2026-04-26
---
@@ -12,7 +12,7 @@ last_reinforced: 2026-04-26
> "모델의 지능이 높아질수록 악의적인 유도(Prompting)에 취약해짐을 인지하고, 언어의 모호함 뒤에 숨은 공격 의도를 철저히 차단하라" — LLM의 특이적인 취약점인 프롬프트 인젝션, 탈옥(Jailbreaking), 학습 데이터 노출 등을 방어하고 AI의 응답이 윤리적/법적 가이드라인을 준수하도록 강제하는 보안 체계.
## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** "Multi-layered Defense and Red Teaming" — 입력 단계에서의 필터링, 모델 내부의 정렬(Alignment), 출력 단계에서의 검증 등 다층적인 방어벽을 구축하고, 공격자의 관점에서 모델의 한계를 시험하여 보안 구멍을 선제적으로 메우는 방어 패턴.
- **추출된 패턴:** "Multi-layered Defense and Red Teaming" — 입력 단계에서의 필터링, 모델 내부의 정렬([[Alignment]]), 출력 단계에서의 검증 등 다층적인 방어벽을 구축하고, 공격자의 관점에서 모델의 한계를 시험하여 보안 구멍을 선제적으로 메우는 방어 패턴.
- **핵심 위협 및 대응:**
- **Prompt Injection:** 사용자 입력이 모델의 시스템 지침을 압도하여 악의적 명령을 수행하게 하는 공격. -> 지시문과 데이터의 엄격한 분리 및 검증 모델 활용.
- **Data Leakage:** 학습 데이터에 포함된 민감 정보(PII)를 교묘하게 인출하는 행위. -> 데이터 전처리 시 비식별화 및 출력 필터링.