권한 및 안전 (Permissions and Safety)

📌 한 줄 통찰 (The Karpathy Summary)

"에이전트의 야생성을 길들이는 고삐: 프롬프트 수준의 신뢰를 넘어, 다중 계층 권한 모드와 사전 행동 검증(Pre-action Verification)을 통해 에이전트의 행동을 구조적으로 인가하고 제어하는 거버넌스 프레임워크."

구조적 인가 패턴 (Structured Authorization): 현대적인 하네스는 자연어 프롬프트에만 의존하지 않고 다중 수준의 권한 모드(Default, Auto, Plan Mode 등)와 경로 기반 규칙을 통해 에이전트의 쓰기/실행 권한을 강제한다 [3, 4, 9].
사전 행동 검증 및 정책 게이트 (Policy Gates): 모든 도구 호출은 실행 전에 OPA(Open Policy Agent)나 인가 패브릭(Authorization Fabric)에 의해 평가된다. 'ALLOW, DENY, REQUIRE_APPROVAL' 등의 결정론적 정책을 통해 승인된 도구만 호출되도록 보장한다 [5, 10, 11].
인간 개입 제어 (Human-in-the-Loop, HITL): 고위험 행동(DB 수정, 이메일 발송 등) 식별 시 실행을 일시 중지(Interrupt)하고 인간의 승인을 기다리는 워크플로우를 구현하여, 최종 책임과 감독을 인간이 유지하도록 한다 [6, 8, 12].
최소 권한 원칙 (Least-Privilege): 에이전트는 독립적인 스크립트가 아니라 정의된 파이프라인 컨텍스트 내에서 동작하며, 허용된 리소스, 시크릿, RBAC 범위만을 상속받아 동작한다 [5, 7, 13].

승인 피로 (Approval Fatigue): 빈번한 승인 요구는 사용자가 내용을 확인하지 않고 무비판적으로 '자동 승인'하게 만드는 부작용을 낳을 수 있다. 이를 방지하기 위해 2단계 분류기를 통한 선별적 승인 모델이 연구되고 있으나, 이는 검증의 철저함을 약화시킬 우려가 있다 [4].
신원 매핑의 복잡성: 에이전트가 다중 서비스에 접근할 때 최종 사용자의 권한을 대리(On-behalf-of)할 것인지, 고정 자격 증명을 사용할 것인지에 따라 신원 매핑 및 메모리 격리의 기술적 복잡성이 극도로 증가한다 [4].

상위 개념: AI Governance, Cybersecurity
유사 개념: RBAC (Role-Based Access Control), Human-in-the-Loop (HITL), Pre-Action Authorization, Allow-listing
관련 프로젝트: OpenHarness, Claude Code, ConnectAI

Last updated: 2026-05-08