---
id: AI-SEC-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 1.0
tags: [ai, llm-security, prompt-injection, ai-safety, cybersecurity, red-teaming]
last_reinforced: 2026-04-26
---

# LLM Security and Safety (LLM 보안 및 안전)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "모델의 지능이 높아질수록 악의적인 유도(Prompting)에 취약해짐을 인지하고, 언어의 모호함 뒤에 숨은 공격 의도를 철저히 차단하라" — LLM의 특이적인 취약점인 프롬프트 인젝션, 탈옥(Jailbreaking), 학습 데이터 노출 등을 방어하고 AI의 응답이 윤리적/법적 가이드라인을 준수하도록 강제하는 보안 체계.

## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** "Multi-layered Defense and Red Teaming" — 입력 단계에서의 필터링, 모델 내부의 정렬(Alignment), 출력 단계에서의 검증 등 다층적인 방어벽을 구축하고, 공격자의 관점에서 모델의 한계를 시험하여 보안 구멍을 선제적으로 메우는 방어 패턴.
- **핵심 위협 및 대응:**
    - **Prompt Injection:** 사용자 입력이 모델의 시스템 지침을 압도하여 악의적 명령을 수행하게 하는 공격. -> 지시문과 데이터의 엄격한 분리 및 검증 모델 활용.
    - **Data Leakage:** 학습 데이터에 포함된 민감 정보(PII)를 교묘하게 인출하는 행위. -> 데이터 전처리 시 비식별화 및 출력 필터링.
    - **Jailbreaking:** 가상 시나리오 등을 통해 모델의 안전 가이드라인을 우회하는 기법. -> 지속적인 레드 티밍과 세이프티 가드레일(Guardrails) 강화.
- **의의:** AI 시스템이 기업용 비즈니스 로직과 결합할 때 발생할 수 있는 치명적인 보안 사고를 예방하고 사용자의 신뢰를 유지하는 핵심 기반.

## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 단순히 유해 단어를 차단하는 블랙리스트 방식에서, 이제는 문맥적 의도를 파악하는 '세이프티 모델'을 별도로 운용하여 지능적으로 방어하는 방향으로 진화.
- **정책 변화:** Antigravity 프로젝트는 모든 외부 연동 도구 호출 시 '샌드박스' 환경을 제공하며, LLM이 생성한 코드가 실행되기 전 보안 스캔 레이어를 거치도록 강제함.

## 🔗 지식 연결 (Graph)
- [[Input-Validation-Strategies|Input-Validation-Strategies]], [[Trustworthy-AI|Trustworthy-AI]], AI-Ethics, Data-Privacy-Foundations
- **Raw Source:** 10_Wiki/Topics/AI/LLM-Security-and-Safety.md