2nd/10_Wiki/Topics/Harness_Research_2026-05/심층 방어 (Defense-in-depth).md

# [[심층 방어 (Defense-in-depth)]]

## 📌 Brief Summary
에이전트 하네스 환경에서 심층 방어(Defense-in-depth)란 자율형 인공지능의 실행을 잠재적인 '적대적 워크로드(hostile workload)'로 간주하고, 이를 안전하게 제어하기 위해 다중 계층의 보호 장치를 중첩하여 구축하는 보안 아키텍처이다 [1]. 격리된 컨테이너, 방화벽, 프록시, 스키마 필터링 등 다양한 방어 기제를 함께 적용하여 시스템을 보호한다 [1, 2]. 이는 단일 샌드박스 격리 방식이 지닌 한계를 보완하고 에이전트에 의한 의도치 않은 권한 상승이나 시스템 손상을 방지하기 위해 필수적으로 요구된다 [3].

## 📖 Core Content
* **5계층 심층 방어 체계:** 터미널 네이티브 코딩 에이전트를 위한 하네스 설계에서는 안전성을 확보하기 위해 5계층 심층 방어(5-layer defense-in-depth safety) 체계를 도입하여 운영한다 [2].
* **스키마 기반 행동 제약:** 단순한 런타임 권한 검사에만 의존하지 않고, 스키마 필터링이 적용된 계획 하위 에이전트(schema-filtered planning subagents)를 활용해 도구 스키마 단에서 에이전트의 행동 제약을 물리적으로 강제하는 방식이 방어 계층의 주요 요소로 활용된다 [2].
* **적대적 워크로드 기반 인프라 보호:** CI(지속적 통합) 자동화 인프라 내부에서 코딩 에이전트가 실행될 때, 시스템은 에이전트 실행 자체를 '적대적 워크로드'로 취급하여 보호막을 구축한다 [1].
* **주요 심층 방어 구현 요소:** 구체적인 방어 레이어의 구현 사례로는 격리된 에이전트 컨테이너(isolated agent container), 방화벽(firewall), MCP 게이트웨이(MCP gateway), API 프록시(API proxy), 단계적 안전 출력(staged safe outputs), 그리고 제로 시크릿 실행(zero-secret execution) 메커니즘이 포함된다 [1].

## ⚖️ Trade-offs & Caveats
* **단일 샌드박스 격리의 한계:** 일반적인 수준의 샌드박스 격리(standard sandbox isolation)만으로는 충분한 보안을 달성할 수 없다. 에이전트가 자신의 하네스 구성을 직접 편집할 수 있는 환경이라면 스스로 권한을 상승시킬 수 있는 치명적인 위협이 발생한다 [3]. 따라서 네트워크 송신 제한, 작업 공간 탈출 차단, MCP 서버 구성 및 훅(hooks) 파일 보호와 같은 다중 방어 계층이 필수적으로 병행되어야 한다 [3].
* **문서화 및 인식 부족 현상:** 에이전트 실행을 적대적인 것으로 간주하고 심층 방어 아키텍처를 구축하는 보안 마인드셋은 대부분의 하네스 인프라에 반드시 필요함에도 불구하고, 업계 내에서 관련 기술과 접근법이 제대로 문서화되어 있지 않다(rarely document)는 현실적인 한계점이 존재한다 [1].


---
*Last updated: 2026-05-05*