# 업무별 골든셋 템플릿 (Self-Evolving OS Phase 0 / Track 0-3) ASTRA의 업무 산출물 품질을 측정하기 위한 골든셋 템플릿. 기존 검색 골든셋(`/.astra/eval/golden.jsonl`, retrieval recall 평가)과 별개로, **업무 결과물 자체**(회의록/시장조사/업무조사)를 평가한다. ## 사용 방법 1. 각 `.golden.jsonl` 템플릿을 활성 brain의 `.astra/eval/tasks/` 로 복사 2. 실제 과거 업무 데이터로 5~10건씩 채움 (한 줄 = JSON 1건, `//` 시작 줄은 주석) 3. Phase 3 Self Evaluation 모듈이 이 골든셋을 읽어 자동 채점 (evalHarness 패턴 확장) ## 레코드 형식 ```jsonc { "id": "mm-001", // 업무유형 약자 + 일련번호 "query": "사용자가 실제로 입력한 요청", "input": "원자료 (회의 메모 원문, 조사 주제 배경 등)", "expectedElements": ["참석자", "결정사항"], // 반드시 포함돼야 할 요소 (requirementGraph 의 label 과 일치) "reference": "모범 결과물 전문 또는 핵심 포인트 목록", "notes": "채점 시 주의사항 (선택)" } ``` `expectedElements` 는 `src/intelligence/requirementGraph.ts` 의 `DEFAULT_TASK_REQUIREMENTS` element label 과 일치시킬 것 — 커버리지 검사와 Self Evaluation 이 같은 어휘를 쓰도록. ## 채점 기준 (Self Evaluation 에서 사용) | 항목 | 척도 | |------|------| | 필수 요소 충족률 | expectedElements 커버 비율 (결정론적) | | 정확성 | 1~10 (reference 대비) | | 논리성 | 1~10 | | 가독성 | 1~10 | | 사실 오류 | 개수 (0이 목표) |