2afd1ac589
신뢰성 코어 (P1~P2): - Requirement Graph: 업무 유형(회의록/시장조사/업무조사/일정) 필수 요소 주입 + 커버리지 hook - Confidence Engine(0~100 결정론적) / Escalation Engine(검토 요청) / Epistemic Guard(모름·추정·확실 3분류) - Provenance: citationTrace 에 출처 수정일·오래됨 경고 - Critic Loop: 문제 신호 turn 만 LLM 검수 1회 + 보완 카드 성장 루프 (P3): - Gap Detector(Requirement-Knowledge) / Need Engine(30/25/20/15/10 공식) / Knowledge Inventory - Learning Queue(proposed 전용 병합 — 승인은 사람만) / Decision Journal / Reflection 기록 - 반복 누락 요소(3회+)는 다음 turn 체크리스트에 자동 강조 (T5 루프) 지식 운영 (P4) + 기억 (P5) + 학습 실행 (P6): - Knowledge Validation + Belief Revision(중복 reject·충돌 시 update/add 권고) - Knowledge Decay(분야별 반감기 감사) / Knowledge Debt(blocked x impact) - Organizational Memory(.astra/organization.md 상시 주입) - Research Agent(approved 큐 -> 조사 브리프+추정 라벨 초안+Validation 게이트 -> proposals/) - Skill Score(전/후반 추세) + Success Pattern DB(전요소충족+확신도90+ 자동 적재) 병렬 트랙: - 캘린더 충돌 게이트: conflictCheck + 구조화 이벤트 캐시 + create_calendar_event 차단(force 는 사용자 승인 후) - Task Eval Harness: 회의록 골든셋 자동 채점 명령 + 성장 리포트/학습 큐/노후 점검 명령 신규 모듈 17종(src/intelligence/), VS Code 명령 5종, 설정 11종, 테스트 +89건(전체 508 통과). 설계 문서: docs/SELF_EVOLVING_OS_MASTER_PLAN.md Co-Authored-By: Claude Fable 5 <noreply@anthropic.com>
업무별 골든셋 템플릿 (Self-Evolving OS Phase 0 / Track 0-3)
ASTRA의 업무 산출물 품질을 측정하기 위한 골든셋 템플릿.
기존 검색 골든셋(<brain>/.astra/eval/golden.jsonl, retrieval recall 평가)과 별개로,
업무 결과물 자체(회의록/시장조사/업무조사)를 평가한다.
사용 방법
- 각
.golden.jsonl템플릿을 활성 brain의.astra/eval/tasks/로 복사 - 실제 과거 업무 데이터로 5~10건씩 채움 (한 줄 = JSON 1건,
//시작 줄은 주석) - Phase 3 Self Evaluation 모듈이 이 골든셋을 읽어 자동 채점 (evalHarness 패턴 확장)
레코드 형식
{
"id": "mm-001", // 업무유형 약자 + 일련번호
"query": "사용자가 실제로 입력한 요청",
"input": "원자료 (회의 메모 원문, 조사 주제 배경 등)",
"expectedElements": ["참석자", "결정사항"], // 반드시 포함돼야 할 요소 (requirementGraph 의 label 과 일치)
"reference": "모범 결과물 전문 또는 핵심 포인트 목록",
"notes": "채점 시 주의사항 (선택)"
}
expectedElements 는 src/intelligence/requirementGraph.ts 의
DEFAULT_TASK_REQUIREMENTS element label 과 일치시킬 것 — 커버리지 검사와
Self Evaluation 이 같은 어휘를 쓰도록.
채점 기준 (Self Evaluation 에서 사용)
| 항목 | 척도 |
|---|---|
| 필수 요소 충족률 | expectedElements 커버 비율 (결정론적) |
| 정확성 | 1~10 (reference 대비) |
| 논리성 | 1~10 |
| 가독성 | 1~10 |
| 사실 오류 | 개수 (0이 목표) |