# Agentic AI Security (에이전트 보안)

## 📌 Brief Summary
Agentic AI Security는 자율적으로 판단하고 도구를 실행하는 에이전트 시스템에서 발생할 수 있는 고유한 보안 위협(프롬프트 인젝션, 권한 남용, 데이터 유출 등)으로부터 시스템과 데이터를 보호하기 위한 기술 및 정책적 방어 체계이다. 단순한 LLM 보안을 넘어, 에이전트가 활동하는 전체 환경(Harness, Sandbox, Memory, Tools)을 포함하는 방어 심층(Defense-in-Depth) 아키텍처를 지향한다.

## 📖 Core Content
*   **주요 위협 모델 (Threat Model)**:
    *   **[[Indirect Prompt Injection|Indirect Prompt Injection]]**: 외부 데이터(웹페이지, 파일)에 숨겨진 악성 지침이 에이전트를 하이재킹하는 공격.
    *   **[[Excessive Agency|Excessive Agency]]**: 에이전트에게 필요 이상의 강력한 도구 실행 권한이 부여되어 발생하는 리스크.
    *   **Memory Poisoning**: 에이전트의 장기 메모리에 잘못된 정보를 주입하여 지속적인 오작동을 유발.
*   **방어 심층 (Defense-in-Depth) 아키텍처**:
    *   **L-component (Lifecycle Hooks)**: 런타임에 모든 명령과 결과를 검사하는 감시 계층.
    *   **[[Execution Environment (Sandbox)|Execution Environment (Sandbox)]]**: 코드 실행 및 파일 조작을 격리된 공간에서 수행.
    *   **Zoned Governance**: 에이전트의 신뢰 등급에 따라 접근 가능한 자원 존(Zone)을 분리.
*   **최소 권한의 원칙 (Least Privilege)**: 에이전트에게 현재 작업을 완수하는 데 필요한 최소한의 도구와 데이터 접근 권한만을 동적으로 부여한다.
*   **인간 승인 게이트 (Human-in-the-loop)**: 민감한 작업(파일 삭제, 이메일 발송, 금융 거래 등) 실행 전 반드시 사용자의 명시적 승인을 거치도록 설계한다.

## ⚖️ Trade-offs & Caveats
*   **보안과 생산성의 충돌**: 가드레일이 너무 엄격하면 에이전트의 자율성이 훼손되어 복잡한 문제 해결 능력이 저하된다.
*   **지연 시간 오버헤드**: 모든 단계에서 보안 검사와 샌드박싱을 수행하면 전체 시스템의 반응 속도가 느려진다.
*   **완벽한 방어의 불가능성**: LLM의 확률론적 특성상 모든 형태의 프롬프트 인젝션을 100% 차단하는 것은 기술적으로 매우 어렵다.

## 🔗 Knowledge Connections

### Related Concepts
*   [[Agent Harness|Agent Harness]]
    *   연결 이유: 보안 정책이 실제로 구현되고 집행되는 인프라 계층이다.
*   [[Indirect Prompt Injection|Indirect Prompt Injection]]
    *   연결 이유: 에이전틱 환경에서 가장 치명적이고 빈번한 공격 유형이다.
*   [[Excessive Agency|Excessive Agency]]
    *   연결 이유: 에이전트 설계 시 가장 흔하게 발생하는 보안 설정 오류이다.

### Deeper Research Questions
*   에이전트가 스스로 보안 위험을 인지하고 보고하는 '자기 방어형 페르소나'를 구축하는 것이 공격 방어에 얼마나 효과적인가?
*   다중 에이전트 체인에서 한 에이전트가 오염되었을 때, 다른 에이전트로 공격이 확산되는 것을 막는 '에이전트 간 방화벽'은 어떻게 설계해야 하는가?
*   실시간으로 변화하는 위협 환경에 맞춰 하네스의 가드레일을 동적으로 업데이트하는 '적응형 보안 엔진'은 가능한가?

### Practical Application Contexts
*   **Implementation:** 모든 도구 호출 전후에 `L-component`에서 정규식이나 분류 모델을 사용하여 데이터 유출 여부를 실시간 스캐닝한다.
*   **System Design:** 보안 등급이 다른 여러 종류의 샌드박스를 운영하며, 작업의 위험도에 따라 에이전트를 적절한 환경으로 라우팅한다.

---
*Last updated: 2026-05-01*