Files
2nd/10_Wiki/Topics/Agent Harness.md
T

5.4 KiB

Agent Harness (에이전트 하네스)

📌 Brief Summary

Agent Harness는 에이전트(LLM)가 독립적으로 동작하지 않고, 시스템 자원(파일, 네트워크, 도구)에 접근하고, 상태를 유지하며, 외부와 소통할 수 있도록 감싸는 **'실행 런타임이자 거버넌스 계층'**이다 [1-3]. 에이전트에게는 외부 세계와 소통하는 인터페이스를 제공하고, 시스템에게는 에이전트의 행동을 통제하고 관찰하는 보안 및 운영 경계를 제공한다 [4, 5]. 최근에는 이를 'Agent OS' 또는 하네스가 에이전트의 역량을 증폭시킨다는 의미에서 **'Harness Multiplier'**라고도 부른다 [1, 6].

📖 Core Content

  • 하네스 아키텍처 (Standard Substrate):
  • L3 Meta-Factory: 에이전트의 워크플로우와 추론 단계를 동적으로 생성하고 최적화하는 상위 메타 계층 [6, 15].
  • 둠 루프 (Doom Loop) 감지: 에이전트가 작동하지 않는 접근 방식을 끝없이 반복할 때, 하네스 계층의 LoopDetectionMiddleware가 이를 감지하고 계획을 재고(Reconsidering)하도록 강제 지침을 주입한다 [1, 5].
  • 하네스 서비스화 (HaaS, Harness-as-a-Service): 에이전트 실행 환경을 클라우드 기반의 표준화된 서비스로 제공하여 인프라 구축 부담을 최소화하는 방식 [6, 16].
  • 데이터 거버넌스 기판: 대부분의 프레임워크가 놓치는 '데이터 품질'을 관리하기 위해, 입력 데이터의 리니지(Lineage)를 추적하고 인증 상태를 검증하는 계층 [1, 7].
  • 공진화 (Co-evolution): 모델의 훈련 과정과 하네스 설계가 상호작용하며 발전하는 현상. 최신 모델은 하네스를 루프에 포함하여 사후 훈련(post-trained)을 진행하며, 이는 인간과 에이전트가 상호 학습하며 개선되는 팀워크 플랫폼의 기반이 된다 [1, 2].

⚖️ Trade-offs & Caveats

  • 공진화의 경고 (Co-evolution Warning): 특정 하네스 환경에 모델이 과적합(Overfitting)되어, 도구의 로직이 조금만 바뀌어도 성능이 급격히 저하되는 일반화 능력 결여 문제를 초래할 수 있다 [1, 3, 5].
  • 운영 부담 (Operational Burden): 하네스 인프라(샌드박스, 관측 도구 등)를 자체 호스팅(Self-hosting)할 경우, 소규모 팀에게는 막대한 시스템 유지 관리 비용이 발생한다 [10, 17].
  • 연쇄적 실패 (Cascading Failures): 하네스 계층에서 데이터 무결성 검증이 부재할 경우, 잘못된 소스 데이터가 에이전트의 사고 과정을 오염시켜 전체 미션의 실패로 이어진다 [1, 18].
  • 컨텍스트 부패 (Context Rot): 다단계 추론 과정에서 정보가 압축될 때 핵심 맥락과 출처(Provenance)가 손실되어, 에이전트가 '자신감 있는 오답'을 도출할 위험이 있다 [20, 21].
  • 성능 오버헤드: 보안 격리 및 관측성 도구 통합 시 시스템 실행 속도가 약 12~15% 저하될 수 있다 [14, 22].

🔗 Knowledge Connections

Practical Application Contexts

  • Implementation: Docker/Firecracker microVM 기반의 Sandbox (샌드박스)를 하네스에 래핑하여 에이전트의 코드 실행 환경을 물리적으로 격리한다.
  • Operation: AgentOps 또는 Langfuse를 연동하여 실시간 트레이스를 분석하고, 실패 지점의 데이터를 역추적하여 프롬프트나 데이터 소스를 교정한다.

Last updated: 2026-05-05