Files
connectai/assets/eval-templates/tasks
koriweb 2afd1ac589 feat: Self-Evolving Digital Employee OS P0~P6 + 캘린더 충돌 게이트
신뢰성 코어 (P1~P2):
- Requirement Graph: 업무 유형(회의록/시장조사/업무조사/일정) 필수 요소 주입 + 커버리지 hook
- Confidence Engine(0~100 결정론적) / Escalation Engine(검토 요청) / Epistemic Guard(모름·추정·확실 3분류)
- Provenance: citationTrace 에 출처 수정일·오래됨 경고
- Critic Loop: 문제 신호 turn 만 LLM 검수 1회 + 보완 카드

성장 루프 (P3):
- Gap Detector(Requirement-Knowledge) / Need Engine(30/25/20/15/10 공식) / Knowledge Inventory
- Learning Queue(proposed 전용 병합 — 승인은 사람만) / Decision Journal / Reflection 기록
- 반복 누락 요소(3회+)는 다음 turn 체크리스트에 자동 강조 (T5 루프)

지식 운영 (P4) + 기억 (P5) + 학습 실행 (P6):
- Knowledge Validation + Belief Revision(중복 reject·충돌 시 update/add 권고)
- Knowledge Decay(분야별 반감기 감사) / Knowledge Debt(blocked x impact)
- Organizational Memory(.astra/organization.md 상시 주입)
- Research Agent(approved 큐 -> 조사 브리프+추정 라벨 초안+Validation 게이트 -> proposals/)
- Skill Score(전/후반 추세) + Success Pattern DB(전요소충족+확신도90+ 자동 적재)

병렬 트랙:
- 캘린더 충돌 게이트: conflictCheck + 구조화 이벤트 캐시 + create_calendar_event 차단(force 는 사용자 승인 후)
- Task Eval Harness: 회의록 골든셋 자동 채점 명령 + 성장 리포트/학습 큐/노후 점검 명령

신규 모듈 17종(src/intelligence/), VS Code 명령 5종, 설정 11종, 테스트 +89건(전체 508 통과).
설계 문서: docs/SELF_EVOLVING_OS_MASTER_PLAN.md

Co-Authored-By: Claude Fable 5 <noreply@anthropic.com>
2026-06-11 13:42:09 +09:00
..

업무별 골든셋 템플릿 (Self-Evolving OS Phase 0 / Track 0-3)

ASTRA의 업무 산출물 품질을 측정하기 위한 골든셋 템플릿. 기존 검색 골든셋(<brain>/.astra/eval/golden.jsonl, retrieval recall 평가)과 별개로, 업무 결과물 자체(회의록/시장조사/업무조사)를 평가한다.

사용 방법

  1. .golden.jsonl 템플릿을 활성 brain의 .astra/eval/tasks/ 로 복사
  2. 실제 과거 업무 데이터로 5~10건씩 채움 (한 줄 = JSON 1건, // 시작 줄은 주석)
  3. Phase 3 Self Evaluation 모듈이 이 골든셋을 읽어 자동 채점 (evalHarness 패턴 확장)

레코드 형식

{
  "id": "mm-001",                      // 업무유형 약자 + 일련번호
  "query": "사용자가 실제로 입력한 요청",
  "input": "원자료 (회의 메모 원문, 조사 주제 배경 등)",
  "expectedElements": ["참석자", "결정사항"], // 반드시 포함돼야 할 요소 (requirementGraph 의 label 과 일치)
  "reference": "모범 결과물 전문 또는 핵심 포인트 목록",
  "notes": "채점 시 주의사항 (선택)"
}

expectedElementssrc/intelligence/requirementGraph.tsDEFAULT_TASK_REQUIREMENTS element label 과 일치시킬 것 — 커버리지 검사와 Self Evaluation 이 같은 어휘를 쓰도록.

채점 기준 (Self Evaluation 에서 사용)

항목 척도
필수 요소 충족률 expectedElements 커버 비율 (결정론적)
정확성 1~10 (reference 대비)
논리성 1~10
가독성 1~10
사실 오류 개수 (0이 목표)