Files
2nd/10_Wiki/Topics/Harness_Research_2026-05/Harness Multiplier.md
T
Antigravity Agent f8b21af4be Wiki cleanup: error-doc removal, dedup merge, link normalization
10_Wiki/Topics 대규모 정리:
- 오류 캡처/미완성 stub 문서 227개 제거
- 교차폴더 중복 43클러스터 병합 (63파일 → redirect)
- 링크명 정규화: 깨진 링크 수정·redirect 직결·개념 매핑 ~2,400건
- 카테고리 MOC 6개 신규 생성
- Graph 섹션 미해결 related-keyword 링크 10,058건 제거

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-20 23:52:15 +09:00

3.7 KiB

id, title, category, status, confidence_score, tags, created_at, updated_at
id title category status confidence_score tags created_at updated_at
HARNESS-RES-2026-05-003 하네스 승수 (Harness Multiplier) 10_Wiki/Topics/Architecture verified 0.98
harness
multiplier
efficiency
performance
benchmarking
2026-05-05 2026-05-08

하네스 승수 (Harness Multiplier)

📌 한 줄 통찰 (The Karpathy Summary)

"성능의 증폭기: 모델의 원시 지능이 실제 환경에서 작업 완료 능력으로 변환되는 효율을 수치화한 지표로, 생산 성능 = 모델 역량 × 하네스 승수라는 에이전트 성능의 핵심 방정식을 정의함."

📖 구조화된 지식 (Synthesized Content)

  • 성능의 구성 공식: 실제 프로덕션 환경에서 AI 에이전트가 보여주는 성능은 모델 자체의 능력만으로 결정되지 않으며, 생산 성능 = 모델 역량 × 하네스 승수라는 공식으로 분해하여 평가되어야 한다 [1]. 모델을 단일 참조 하네스에 고립시켜 평가하는 기존의 벤치마크 방식은 실제 도입 시의 성능을 제대로 예측하지 못한다 [3, 6].
  • 하네스 승수의 극적인 효과: 동일한 주간에 측정된 실험에 따르면, GPT-5.5 모델이 OpenAI의 네이티브 Codex 하네스 환경에서는 61.5%의 기능성 점수를 기록했으나 Cursor 하네스에서는 87.2%를 기록하였다 [4, 5]. 무려 25.7%포인트의 성능 향상은 모델 업그레이드나 프롬프트 개선이 아닌, 오직 런타임 환경(하네스)의 교체로 인한 승수 효과이다 [2, 4, 5, 7].
  • 하네스 승수의 5대 핵심 차원: 하네스 승수의 크기(효율성)를 결정하는 인프라의 주요 차원은 다음과 같이 세분화된다 [1, 2].
    • 컨텍스트 관리의 정교함(Context Management): 모델에게 언제 어떠한 정보를 제공하고 불필요한 데이터를 제거할지 결정하는 알고리즘적 관리 수준 [1, 2].
    • 도구 통합의 깊이(Tool Integration Depth): 단순한 도구 호출에 그치지 않고 실패를 감지해 재시도하거나 대체 경로를 찾는 실행 능력 [1, 2].
    • 메모리의 연속성(Memory Continuity): 세션 간 이전 단계의 성공 및 실패 맥락을 유지하여 중복된 작업을 방지하는 능력 [1, 2].
    • 검증 메커니즘(Verification Mechanisms): 사람의 확인이 이루어지기 전에 에이전트 스스로 결과를 테스트하고 교정하는 루프 [1, 2].
    • 다중 에이전트 조율(Multi-agent Coordination): 복잡한 작업을 분해하고 여러 에이전트 간의 역할을 분배하는 능력 [1].

⚖️ 트레이드오프 및 고려사항

  • 기여도 분리의 한계: 폐쇄형(Closed-source) 독점 시스템의 경우 모델과 하네스 아키텍처가 불투명하게 결합되어 있어, 성과 향상이 모델의 역량 덕분인지 하네스 승수에 의한 것인지 그 기여도를 명확히 분리해 내기 불가능하다는 제약이 있다 [8].
  • 평가 환경 구축의 복잡성: 하네스 승수를 정확하게 측정하고 최적화하려면 단순히 범용 벤치마크 점수에 의존할 수 없으며, 조직 내부의 실제 업무를 반영하는 자체 작업 샘플(Internal task sets)을 필수적으로 준비해야 한다 [6, 8].
  • 진단을 위한 오버헤드: 특정 벤더가 새로운 모델 버전과 함께 하네스 업데이트를 동시에 배포할 경우, '구형 하네스에서의 신형 모델'과 '신형 하네스에서의 구형 모델'을 각각 교차로 평가하는(Ablation protocol) 복잡한 평가 절차가 요구된다 [1, 9].

🔗 지식 연결 (Graph)


Last updated: 2026-05-08