Files
2nd/10_Wiki/Topics/LLM-Security-and-Safety.md
T

2.5 KiB

id, category, confidence_score, tags, last_reinforced
id category confidence_score tags last_reinforced
AI-SEC-001 10_Wiki/💡 Topics/AI 1.0
ai
llm-security
prompt-injection
ai-safety
cybersecurity
red-teaming
2026-04-26

LLM Security and Safety (LLM 보안 및 안전)

📌 한 줄 통찰 (The Karpathy Summary)

"모델의 지능이 높아질수록 악의적인 유도(Prompting)에 취약해짐을 인지하고, 언어의 모호함 뒤에 숨은 공격 의도를 철저히 차단하라" — LLM의 특이적인 취약점인 프롬프트 인젝션, 탈옥(Jailbreaking), 학습 데이터 노출 등을 방어하고 AI의 응답이 윤리적/법적 가이드라인을 준수하도록 강제하는 보안 체계.

📖 구조화된 지식 (Synthesized Content)

  • 추출된 패턴: "Multi-layered Defense and Red Teaming" — 입력 단계에서의 필터링, 모델 내부의 정렬(Alignment), 출력 단계에서의 검증 등 다층적인 방어벽을 구축하고, 공격자의 관점에서 모델의 한계를 시험하여 보안 구멍을 선제적으로 메우는 방어 패턴.
  • 핵심 위협 및 대응:
    • Prompt Injection: 사용자 입력이 모델의 시스템 지침을 압도하여 악의적 명령을 수행하게 하는 공격. -> 지시문과 데이터의 엄격한 분리 및 검증 모델 활용.
    • Data Leakage: 학습 데이터에 포함된 민감 정보(PII)를 교묘하게 인출하는 행위. -> 데이터 전처리 시 비식별화 및 출력 필터링.
    • Jailbreaking: 가상 시나리오 등을 통해 모델의 안전 가이드라인을 우회하는 기법. -> 지속적인 레드 티밍과 세이프티 가드레일(Guardrails) 강화.
  • 의의: AI 시스템이 기업용 비즈니스 로직과 결합할 때 발생할 수 있는 치명적인 보안 사고를 예방하고 사용자의 신뢰를 유지하는 핵심 기반.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

  • 과거 데이터와의 충돌: 단순히 유해 단어를 차단하는 블랙리스트 방식에서, 이제는 문맥적 의도를 파악하는 '세이프티 모델'을 별도로 운용하여 지능적으로 방어하는 방향으로 진화.
  • 정책 변화: Antigravity 프로젝트는 모든 외부 연동 도구 호출 시 '샌드박스' 환경을 제공하며, LLM이 생성한 코드가 실행되기 전 보안 스캔 레이어를 거치도록 강제함.

🔗 지식 연결 (Graph)