Files
2nd/10_Wiki/Topics/Harness_Research_2026-05/Meta-Harness.md
T
Antigravity Agent f8b21af4be Wiki cleanup: error-doc removal, dedup merge, link normalization
10_Wiki/Topics 대규모 정리:
- 오류 캡처/미완성 stub 문서 227개 제거
- 교차폴더 중복 43클러스터 병합 (63파일 → redirect)
- 링크명 정규화: 깨진 링크 수정·redirect 직결·개념 매핑 ~2,400건
- 카테고리 MOC 6개 신규 생성
- Graph 섹션 미해결 related-keyword 링크 10,058건 제거

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-20 23:52:15 +09:00

3.5 KiB

id, title, category, status, confidence_score, tags, created_at, updated_at
id title category status confidence_score tags created_at updated_at
HARNESS-RES-2026-05-004 메타-하네스 (Meta-Harness) 10_Wiki/Topics/Architecture verified 0.96
harness
meta-harness
self-improvement
outer-loop
optimization
2026-05-05 2026-05-08

메타-하네스 (Meta-Harness)

📌 한 줄 통찰 (The Karpathy Summary)

"하네스를 가르치는 하네스: 에이전트의 실행 인프라 자체를 학습 가능한 매개변수로 취급하여, 과거의 실패 로그를 기반으로 시스템 프롬프트와 도구 정의를 자율적으로 진화시키는 아우터 루프(Outer-loop) 최적화 체계."

📖 구조화된 지식 (Synthesized Content)

  • 하네스의 아티팩트화 및 학습 가능성: 메타-하네스는 AGENTS.md, 설정 스크립트, 검증 로직, 테스트 흐름과 같은 하네스의 요소들을 정적인 설정(static configs)이 아니라, 언제든 최적화할 수 있는 아티팩트이자 학습 가능한 매개변수(learnable parameters)로 취급한다 [2]. 단순히 프롬프트를 넘어서 라우팅, 검색, 오케스트레이션 코드까지 모두 최적화의 대상이 된다 [1].
  • 파일 시스템 기반의 최적화 루프: 제안자(proposer) 역할을 하는 에이전트는 파일 시스템에 접근하여 이전의 모든 하네스 후보군, 평가 점수, 실행 트레이스에 대한 방대한 진단 컨텍스트를 읽는다 [1]. 이를 통해 에이전트는 실패의 원인을 특정 하네스 설계의 결정으로 추적하고 지속적인 편집-실행-평가(edit-execute-evaluate) 루프를 구동한다 [1, 2].
  • 프로그램 기반 역할 분리 (PROGRAM.md 패턴): 메타-하네스의 가장 실용적인 패턴 중 하나는 역할의 분리이다 [1]. 인간은 PROGRAM.md와 같은 파일을 통해 최적화 지침(directive)만을 작성하고, 실제 하네스 엔지니어링 루프(프롬프트, 도구 설정, 에이전트 라우팅 최적화 등)는 에이전트가 자율적으로 실행하도록 하는 방식이 활용된다 [1].
  • 재귀적 개선과 자율 진화 메커니즘: 메타-하네스는 작업 해결과 메타 수준의 개선을 하나의 수정 가능한 프로그램으로 통합하여 인지적 자기 수정(metacognitive self-modification)을 가능하게 한다 [1]. 이는 향후 자율형 인공지능이 자신의 실패 로그를 분석해 하네스 가이드라인을 스스로 수정하며 성능을 높이는 '재귀적 개선(recursive improvement)' 메커니즘으로 발전하는 핵심 토대가 된다 [3].

⚖️ 트레이드오프 및 고려사항

  • 막대한 컨텍스트 처리 요구량: 에이전트가 하네스의 실패 원인을 정확히 추적하기 위해서는 이전 하네스의 후보군, 점수, 그리고 매우 방대한 실행 트레이스를 모두 읽어야 한다. 최대 천만(10M) 토큰 규모의 방대한 진단 컨텍스트(diagnostic context)를 처리할 수 있는 역량이 요구된다 [1].
  • 회귀(Regression) 위험과 검증 인프라 필수: 에이전트가 스스로 하네스 코드를 변경하므로, 잘못된 수정으로 인해 오히려 기존 성능이 저하되는 회귀 현상이 발생할 위험이 크다 [1]. 따라서 독립된 작업 공간이나 샌드박스 환경에서의 철저한 검증과 강력한 회귀 방지 가드(regression guards)가 필수적으로 수반되어야 한다 [1].

🔗 지식 연결 (Graph)


Last updated: 2026-05-08