f8b21af4be
10_Wiki/Topics 대규모 정리: - 오류 캡처/미완성 stub 문서 227개 제거 - 교차폴더 중복 43클러스터 병합 (63파일 → redirect) - 링크명 정규화: 깨진 링크 수정·redirect 직결·개념 매핑 ~2,400건 - 카테고리 MOC 6개 신규 생성 - Graph 섹션 미해결 related-keyword 링크 10,058건 제거 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
3.7 KiB
3.7 KiB
id, title, category, status, confidence_score, tags, created_at, updated_at
| id | title | category | status | confidence_score | tags | created_at | updated_at | |||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| HARNESS-RES-2026-05-003 | 하네스 승수 (Harness Multiplier) | 10_Wiki/Topics/Architecture | verified | 0.98 |
|
2026-05-05 | 2026-05-08 |
하네스 승수 (Harness Multiplier)
📌 한 줄 통찰 (The Karpathy Summary)
"성능의 증폭기: 모델의 원시 지능이 실제 환경에서 작업 완료 능력으로 변환되는 효율을 수치화한 지표로,
생산 성능 = 모델 역량 × 하네스 승수라는 에이전트 성능의 핵심 방정식을 정의함."
📖 구조화된 지식 (Synthesized Content)
- 성능의 구성 공식: 실제 프로덕션 환경에서 AI 에이전트가 보여주는 성능은 모델 자체의 능력만으로 결정되지 않으며,
생산 성능 = 모델 역량 × 하네스 승수라는 공식으로 분해하여 평가되어야 한다 [1]. 모델을 단일 참조 하네스에 고립시켜 평가하는 기존의 벤치마크 방식은 실제 도입 시의 성능을 제대로 예측하지 못한다 [3, 6]. - 하네스 승수의 극적인 효과: 동일한 주간에 측정된 실험에 따르면, GPT-5.5 모델이 OpenAI의 네이티브 Codex 하네스 환경에서는 61.5%의 기능성 점수를 기록했으나 Cursor 하네스에서는 87.2%를 기록하였다 [4, 5]. 무려 25.7%포인트의 성능 향상은 모델 업그레이드나 프롬프트 개선이 아닌, 오직 런타임 환경(하네스)의 교체로 인한 승수 효과이다 [2, 4, 5, 7].
- 하네스 승수의 5대 핵심 차원: 하네스 승수의 크기(효율성)를 결정하는 인프라의 주요 차원은 다음과 같이 세분화된다 [1, 2].
- 컨텍스트 관리의 정교함(Context Management): 모델에게 언제 어떠한 정보를 제공하고 불필요한 데이터를 제거할지 결정하는 알고리즘적 관리 수준 [1, 2].
- 도구 통합의 깊이(Tool Integration Depth): 단순한 도구 호출에 그치지 않고 실패를 감지해 재시도하거나 대체 경로를 찾는 실행 능력 [1, 2].
- 메모리의 연속성(Memory Continuity): 세션 간 이전 단계의 성공 및 실패 맥락을 유지하여 중복된 작업을 방지하는 능력 [1, 2].
- 검증 메커니즘(Verification Mechanisms): 사람의 확인이 이루어지기 전에 에이전트 스스로 결과를 테스트하고 교정하는 루프 [1, 2].
- 다중 에이전트 조율(Multi-agent Coordination): 복잡한 작업을 분해하고 여러 에이전트 간의 역할을 분배하는 능력 [1].
⚖️ 트레이드오프 및 고려사항
- 기여도 분리의 한계: 폐쇄형(Closed-source) 독점 시스템의 경우 모델과 하네스 아키텍처가 불투명하게 결합되어 있어, 성과 향상이 모델의 역량 덕분인지 하네스 승수에 의한 것인지 그 기여도를 명확히 분리해 내기 불가능하다는 제약이 있다 [8].
- 평가 환경 구축의 복잡성: 하네스 승수를 정확하게 측정하고 최적화하려면 단순히 범용 벤치마크 점수에 의존할 수 없으며, 조직 내부의 실제 업무를 반영하는 자체 작업 샘플(Internal task sets)을 필수적으로 준비해야 한다 [6, 8].
- 진단을 위한 오버헤드: 특정 벤더가 새로운 모델 버전과 함께 하네스 업데이트를 동시에 배포할 경우, '구형 하네스에서의 신형 모델'과 '신형 하네스에서의 구형 모델'을 각각 교차로 평가하는(Ablation protocol) 복잡한 평가 절차가 요구된다 [1, 9].
🔗 지식 연결 (Graph)
- 유사 개념: Harness-as-a-Service
- 관련 프로젝트: ConnectAI
Last updated: 2026-05-08