--- id: AI-SEC-001 category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 1.0 tags: [ai, llm-security, prompt-injection, ai-safety, cybersecurity, red-teaming] last_reinforced: 2026-04-26 --- # LLM Security and Safety (LLM λ³΄μ•ˆ 및 μ•ˆμ „) ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "λͺ¨λΈμ˜ μ§€λŠ₯이 λ†’μ•„μ§ˆμˆ˜λ‘ μ•…μ˜μ μΈ μœ λ„(Prompting)에 취약해짐을 μΈμ§€ν•˜κ³ , μ–Έμ–΄μ˜ λͺ¨ν˜Έν•¨ 뒀에 μˆ¨μ€ 곡격 μ˜λ„λ₯Ό μ² μ €νžˆ μ°¨λ‹¨ν•˜λΌ" β€” LLM의 특이적인 취약점인 ν”„λ‘¬ν”„νŠΈ μΈμ μ…˜, νƒˆμ˜₯(Jailbreaking), ν•™μŠ΅ 데이터 λ…ΈμΆœ 등을 λ°©μ–΄ν•˜κ³  AI의 응닡이 윀리적/법적 κ°€μ΄λ“œλΌμΈμ„ μ€€μˆ˜ν•˜λ„λ‘ κ°•μ œν•˜λŠ” λ³΄μ•ˆ 체계. ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) - **μΆ”μΆœλœ νŒ¨ν„΄:** "Multi-layered Defense and Red Teaming" β€” μž…λ ₯ λ‹¨κ³„μ—μ„œμ˜ 필터링, λͺ¨λΈ λ‚΄λΆ€μ˜ μ •λ ¬(Alignment), 좜λ ₯ λ‹¨κ³„μ—μ„œμ˜ 검증 λ“± 닀측적인 방어벽을 κ΅¬μΆ•ν•˜κ³ , 곡격자의 κ΄€μ μ—μ„œ λͺ¨λΈμ˜ ν•œκ³„λ₯Ό μ‹œν—˜ν•˜μ—¬ λ³΄μ•ˆ ꡬ멍을 μ„ μ œμ μœΌλ‘œ λ©”μš°λŠ” λ°©μ–΄ νŒ¨ν„΄. - **핡심 μœ„ν˜‘ 및 λŒ€μ‘:** - **Prompt Injection:** μ‚¬μš©μž μž…λ ₯이 λͺ¨λΈμ˜ μ‹œμŠ€ν…œ 지침을 μ••λ„ν•˜μ—¬ μ•…μ˜μ  λͺ…령을 μˆ˜ν–‰ν•˜κ²Œ ν•˜λŠ” 곡격. -> μ§€μ‹œλ¬Έκ³Ό λ°μ΄ν„°μ˜ μ—„κ²©ν•œ 뢄리 및 검증 λͺ¨λΈ ν™œμš©. - **Data Leakage:** ν•™μŠ΅ 데이터에 ν¬ν•¨λœ 민감 정보(PII)λ₯Ό κ΅λ¬˜ν•˜κ²Œ μΈμΆœν•˜λŠ” ν–‰μœ„. -> 데이터 μ „μ²˜λ¦¬ μ‹œ 비식별화 및 좜λ ₯ 필터링. - **Jailbreaking:** 가상 μ‹œλ‚˜λ¦¬μ˜€ 등을 톡해 λͺ¨λΈμ˜ μ•ˆμ „ κ°€μ΄λ“œλΌμΈμ„ μš°νšŒν•˜λŠ” 기법. -> 지속적인 λ ˆλ“œ 티밍과 세이프티 κ°€λ“œλ ˆμΌ(Guardrails) κ°•ν™”. - **의의:** AI μ‹œμŠ€ν…œμ΄ κΈ°μ—…μš© λΉ„μ¦ˆλ‹ˆμŠ€ 둜직과 κ²°ν•©ν•  λ•Œ λ°œμƒν•  수 μžˆλŠ” 치λͺ…적인 λ³΄μ•ˆ 사고λ₯Ό μ˜ˆλ°©ν•˜κ³  μ‚¬μš©μžμ˜ μ‹ λ’°λ₯Ό μœ μ§€ν•˜λŠ” 핡심 기반. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌:** λ‹¨μˆœνžˆ μœ ν•΄ 단어λ₯Ό μ°¨λ‹¨ν•˜λŠ” λΈ”λž™λ¦¬μŠ€νŠΈ λ°©μ‹μ—μ„œ, μ΄μ œλŠ” λ¬Έλ§₯적 μ˜λ„λ₯Ό νŒŒμ•…ν•˜λŠ” '세이프티 λͺ¨λΈ'을 λ³„λ„λ‘œ μš΄μš©ν•˜μ—¬ μ§€λŠ₯적으둜 λ°©μ–΄ν•˜λŠ” λ°©ν–₯으둜 μ§„ν™”. - **μ •μ±… λ³€ν™”:** Antigravity ν”„λ‘œμ νŠΈλŠ” λͺ¨λ“  μ™ΈλΆ€ 연동 도ꡬ 호좜 μ‹œ 'μƒŒλ“œλ°•μŠ€' ν™˜κ²½μ„ μ œκ³΅ν•˜λ©°, LLM이 μƒμ„±ν•œ μ½”λ“œκ°€ μ‹€ν–‰λ˜κΈ° μ „ λ³΄μ•ˆ μŠ€μΊ” λ ˆμ΄μ–΄λ₯Ό κ±°μΉ˜λ„λ‘ κ°•μ œν•¨. ## πŸ”— 지식 μ—°κ²° (Graph) - [[Input-Validation-Strategies|Input-Validation-Strategies]], [[Trustworthy-AI|Trustworthy-AI]], AI-Ethics, Data-Privacy-Foundations - **Raw Source:** 10_Wiki/Topics/AI/LLM-Security-and-Safety.md