# 업무별 골든셋 템플릿 (Self-Evolving OS Phase 0 / Track 0-3)

ASTRA의 업무 산출물 품질을 측정하기 위한 골든셋 템플릿.
기존 검색 골든셋(`<brain>/.astra/eval/golden.jsonl`, retrieval recall 평가)과 별개로,
**업무 결과물 자체**(회의록/시장조사/업무조사)를 평가한다.

## 사용 방법

1. 각 `.golden.jsonl` 템플릿을 활성 brain의 `.astra/eval/tasks/` 로 복사
2. 실제 과거 업무 데이터로 5~10건씩 채움 (한 줄 = JSON 1건, `//` 시작 줄은 주석)
3. Phase 3 Self Evaluation 모듈이 이 골든셋을 읽어 자동 채점 (evalHarness 패턴 확장)

## 레코드 형식

```jsonc
{
  "id": "mm-001",                      // 업무유형 약자 + 일련번호
  "query": "사용자가 실제로 입력한 요청",
  "input": "원자료 (회의 메모 원문, 조사 주제 배경 등)",
  "expectedElements": ["참석자", "결정사항"], // 반드시 포함돼야 할 요소 (requirementGraph 의 label 과 일치)
  "reference": "모범 결과물 전문 또는 핵심 포인트 목록",
  "notes": "채점 시 주의사항 (선택)"
}
```

`expectedElements` 는 `src/intelligence/requirementGraph.ts` 의
`DEFAULT_TASK_REQUIREMENTS` element label 과 일치시킬 것 — 커버리지 검사와
Self Evaluation 이 같은 어휘를 쓰도록.

## 채점 기준 (Self Evaluation 에서 사용)

| 항목 | 척도 |
|------|------|
| 필수 요소 충족률 | expectedElements 커버 비율 (결정론적) |
| 정확성 | 1~10 (reference 대비) |
| 논리성 | 1~10 |
| 가독성 | 1~10 |
| 사실 오류 | 개수 (0이 목표) |