Files
connectai/docs/SELF_EVOLVING_OS_MASTER_PLAN.md
T
koriweb 2afd1ac589 feat: Self-Evolving Digital Employee OS P0~P6 + 캘린더 충돌 게이트
신뢰성 코어 (P1~P2):
- Requirement Graph: 업무 유형(회의록/시장조사/업무조사/일정) 필수 요소 주입 + 커버리지 hook
- Confidence Engine(0~100 결정론적) / Escalation Engine(검토 요청) / Epistemic Guard(모름·추정·확실 3분류)
- Provenance: citationTrace 에 출처 수정일·오래됨 경고
- Critic Loop: 문제 신호 turn 만 LLM 검수 1회 + 보완 카드

성장 루프 (P3):
- Gap Detector(Requirement-Knowledge) / Need Engine(30/25/20/15/10 공식) / Knowledge Inventory
- Learning Queue(proposed 전용 병합 — 승인은 사람만) / Decision Journal / Reflection 기록
- 반복 누락 요소(3회+)는 다음 turn 체크리스트에 자동 강조 (T5 루프)

지식 운영 (P4) + 기억 (P5) + 학습 실행 (P6):
- Knowledge Validation + Belief Revision(중복 reject·충돌 시 update/add 권고)
- Knowledge Decay(분야별 반감기 감사) / Knowledge Debt(blocked x impact)
- Organizational Memory(.astra/organization.md 상시 주입)
- Research Agent(approved 큐 -> 조사 브리프+추정 라벨 초안+Validation 게이트 -> proposals/)
- Skill Score(전/후반 추세) + Success Pattern DB(전요소충족+확신도90+ 자동 적재)

병렬 트랙:
- 캘린더 충돌 게이트: conflictCheck + 구조화 이벤트 캐시 + create_calendar_event 차단(force 는 사용자 승인 후)
- Task Eval Harness: 회의록 골든셋 자동 채점 명령 + 성장 리포트/학습 큐/노후 점검 명령

신규 모듈 17종(src/intelligence/), VS Code 명령 5종, 설정 11종, 테스트 +89건(전체 508 통과).
설계 문서: docs/SELF_EVOLVING_OS_MASTER_PLAN.md

Co-Authored-By: Claude Fable 5 <noreply@anthropic.com>
2026-06-11 13:42:09 +09:00

276 lines
22 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# ASTRA Self-Evolving Digital Employee OS — 마스터 개발 계획 v1.1
> 작성일: 2026-06-11
> 기준 문서: "Self-Evolving Digital Employee OS v1.0" 설계서 (사용자·LLM 공동 설계)
> 재구성 원칙: **신뢰성 우선(Trust-First)** — 전 모듈을 빠짐없이 개발하되, 순서는 신뢰 → 품질 → 성장 루프 → 운영 → 고급 학습 순으로 재배열
---
## 1. 비전과 목표
ASTRA를 **사용자가 의존하고 신뢰할 수 있는 AI 디지털 직원**으로 만든다.
- **주 업무**: 회의록 작성, 일정 관리, 시장 조사, 업무 조사 (지속 확장 예정)
- **부 업무(minor)**: 블로그 글, 쇼츠/YouTube 스크립트, 이미지 프롬프트
- **기반 모델**: Gemma 4 (로컬, LM Studio) — 모델 자체를 바꾸지 않고 주변 시스템으로 성능을 만든다
- 체감 품질 구성비: 모델 20% + 프롬프트 30% + RAG 30% + 평가 20%
### 신뢰의 5조건 (전 모듈의 존재 이유)
| # | 조건 | 담당 모듈 |
|---|------|----------|
| T1 | 모르면 모른다고 말한다 | Anti-Hallucination Layer |
| T2 | 근거를 제시·역추적할 수 있다 | Knowledge Provenance, Decision Journal |
| T3 | 품질이 일관적이다 (필수 요소 누락 없음) | Requirement Graph, Critic Agent |
| T4 | 확신이 없으면 사람에게 묻는다 | Confidence Engine, Escalation Engine |
| T5 | 같은 실수를 반복하지 않는다 | Failure Pattern DB, 성장 루프 4종 |
### 최종 상태
```
업무 수행 → 자기 평가 → 부족함 발견 → 학습 필요 정의 → 학습 → 검증 → 역량 향상 → 다음 업무
```
이 루프가 인간 개입 없이(단, 승인 게이트는 유지) 돌아가는 상태.
---
## 2. 비목표 (Out of Scope — 코드 가드레일로 구현)
1. 독자적 목표 생성 금지
2. 사용자 목적 변경 금지
3. 무제한 자율 학습 금지
4. 승인 없는 장기 기억 저장 금지
5. 승인 없는 외부 액션 금지
6. 자기 코드 수정 금지
7. 자기 복제 금지
---
## 3. 현재 자산 맵 (설계 모듈 ↔ 기존 코드)
| 설계 모듈 | 기존 자산 | 작업 성격 |
|---|---|---|
| Anti-Hallucination | `src/retrieval/coveBlock.ts`, `src/agent/postHocSelfCheck.ts`, `src/agent/termValidator.ts` | 확장 |
| Knowledge Provenance | `src/retrieval/citationTrace.ts` | 확장 |
| Belief Revision / 충돌 | `src/retrieval/conflictBlock.ts`, `src/core/conflict.ts` | 확장 |
| RAG + 평가 | `src/retrieval/chunker.ts`, `evalHarness.ts` + 골든셋 | 진행 중 (청킹 개선) |
| Memory Layer | `src/memory/` (Episodic/LongTerm/ShortTerm/Procedural/Project + Extractor + distillation) | 대부분 보유 |
| Worker Agent / 오케스트레이션 | `src/agents/AgentWorkflowManager.ts`, `factory.ts` | 보유 |
| 지침 자동 주입 | `src/skills/skillInjectionService.ts`, `scopedBrainRetriever.ts` | 보유 |
| Learning Queue 인프라 | `src/core/queue.ts`, `events.ts` | 재사용 |
| 외부 도구 연동 | Datacollect MCP Bridge (:3002) | 패턴 재사용 |
| 의도 명확화 | `src/retrieval/intentClarification.ts` | 확장 (Task Analyzer 기반) |
**신규 개발 필수**: Requirement Graph, Confidence Engine, Escalation Engine, Gap Detector, Need Engine, Self Evaluation, Learning Queue(로직), Knowledge Inventory, Failure/Success Pattern DB, Decision Journal, Skill Tree/Score, Knowledge Decay/Debt, Curiosity/Predictive/Experiment Engine, Research Agent, Goal Success Metrics, Growth Analytics, Organizational/User Memory(확장), Constitution Layer, 캘린더 통합
---
## 4. 전체 아키텍처 (레이어)
```
Constitution Layer ── 불변 규칙 (Goal Lock, Permission Learning, Human Override, Sandbox)
Human Control Layer ── 권한 3단계 (단순화: 실행 / 학습 제안 / 지식 저장·수정=승인)
Intelligence Layer ── Task Analyzer, Requirement Graph, Knowledge Inventory,
Gap Detector, Confidence Engine, Need Engine, Self-Awareness
Execution Layer ── Worker Agent, Critic Agent, Debate Loop, Reflection Engine
Learning Layer ── Learning Queue, Research Agent, Curiosity, Predictive, Experiment
Knowledge Layer ── KB, RAG, (Knowledge Graph: 보류), Provenance, Validation,
Belief Revision, Decay, Debt
Memory Layer ── Episodic, Semantic, Long-Term, Organizational, User
Growth Layer ── Skill Tree, Skill Score, Failure/Success Pattern DB,
Decision Journal, Growth Analytics
횡단(Cross-cutting) ── Anti-Hallucination, Escalation Engine, Goal Success Metrics, KPI
```
> 권한 체계 단순화 근거: 1인 사용자 환경. 원설계 Level 0~5는 다인 조직용이므로 3단계로 축약하되, 내부 enum은 0~5를 유지해 향후 확장 가능하게 한다.
---
## 5. 모듈 명세 (전체 — 누락 없음)
표기: **[신규]** 새로 개발 / **[확장]** 기존 코드 확장 / **[재사용]** 기존 것 그대로 활용 / **[보류]** 게이트 통과 후 재평가
### Track 0 — 준비 (Phase 0)
| ID | 모듈/작업 | 내용 | 완료 기준 |
|----|----------|------|----------|
| 0-1 | 서빙 환경 확정 | LM Studio + Gemma 4 기준 확인 (`src/lmstudio/`) | 모델·엔드포인트 문서화 |
| 0-2 | 벡터 저장소 확정 | 기존 `embeddings.ts`/`brainIndex.ts` 유지 (교체 안 함) | 결정 기록 |
| 0-3 | **업무별 골든셋** [신규] | 회의록·시장조사·업무조사 각 5~10건 입력+기대결과물. evalHarness 패턴 재사용 | 골든셋 파일 + 채점 기준 존재 |
| 0-4 | 데이터 인벤토리 | 과거 회의록·조사 결과물·피드백 소재 파악, 지침서(블로그 v4.1, E-E-A-T, 금지표현 등) 목록화 | 인벤토리 문서 |
### Track 1 — 신뢰성 코어 (Phase 2)
| ID | 모듈 | 책임 | 입력 → 출력 | 완료 기준 |
|----|------|------|------------|----------|
| 1-1 | **Confidence Engine** [신규] | 산출물별 확신도 산출 | 답변+근거 → 0~100 점수, 4구간(90+/70~89/50~69/<50) | <50이면 자동 추가조사 트리거 |
| 1-2 | **Escalation Engine** [신규] | 인간 개입 필요성 판단 | 확신도·영향도·정보부족·규칙충돌 → 검토요청/자체진행 | 저확신+고영향 시 반드시 질문 |
| 1-3 | **Anti-Hallucination 강화** [확장: coveBlock, postHocSelfCheck] | 모름/추정/확인필요 3분류 강제 | 모든 출력에 근거 등급 라벨 | 근거 없는 단정 출력 0건 (골든셋 기준) |
| 1-4 | **Provenance 확장** [확장: citationTrace] | 출처·수집일·검증일·신뢰도 메타데이터 | 지식 항목 → `{source, collected_at, validated_at, confidence}` | 임의 결론의 출처 역추적 가능 |
### Track 2 — 업무 품질 (Phase 1) ★최초 착수
| ID | 모듈 | 책임 | 입력 → 출력 | 완료 기준 |
|----|------|------|------------|----------|
| 2-1 | **Requirement Graph** [신규] | 업무 유형별 필수 요소 정의 | 업무유형 → 필수요소 체크리스트 | 회의록(참석자/결정사항/액션아이템/담당자/기한), 시장조사(시장규모/성장률/경쟁사/가격/니즈/트렌드), 업무조사(사용자와 정의) 3종 등록 |
| 2-2 | **Task Analyzer** [확장: intentClarification] | 요청 분석 | 사용자 요청 → 업무유형·성공기준·결과물·제약 | 골든셋 요청의 유형 분류 정확도 ≥90% |
| 2-3 | **Critic Agent + Debate Loop** [신규+재사용: AgentWorkflowManager] | 제출 전 자동 검수 | 초안 → 비판 → 재작성 → 재검토 | Requirement 누락 시 자체 보완 후 제출 |
| 2-4 | **Reflection Engine** [신규] | 업무 후 회고 | 완료 업무 → 부족점·원인·필요정보 기록 | 회고 레코드가 Failure Pattern DB에 적재 |
### Track 3 — 성장 루프 (Phase 3) ★검증 게이트
| ID | 모듈 | 책임 | 입력 → 출력 | 완료 기준 |
|----|------|------|------------|----------|
| 3-1 | **Knowledge Inventory** [신규] | 보유 지식 파악 | 도메인 → 보유/부족/없음 | 주요 업무 도메인 커버 |
| 3-2 | **Gap Detector** [신규] | Gap = Requirement Knowledge | 업무+인벤토리 → 부족지식·영향도·긴급도 | 실제 부족이 Gap으로 검출됨 |
| 3-3 | **Need Engine** [신규] | 학습 우선순위 산출 | Need = 정보부족×30% + 실패율×25% + 빈도×20% + 확신부족×15% + 피드백×10% | 우선순위 목록 자동 생성 |
| 3-4 | **Self Evaluation** [신규] | 산출물 자동 채점 | 결과물+골든셋 기준 → 점수(정확성/논리성/가독성/만족도 1~10 + 사실오류 수) | 골든셋과 사람 평가의 상관 확인 |
| 3-5 | **Learning Queue** [확장: core/queue] | 학습 대기열 | Need 목록 → 우선순위 큐 (예: GA4/High/전환율 분석 실패) | 큐 적재·소비·승인 흐름 동작 |
| 3-6 | **Failure Pattern DB** [신규] | 반복 실수 추적 | 회고·평가 → 패턴+횟수 (예: 액션아이템 누락 N회) | 동일 실수 재발 시 카운트 증가 + 프롬프트 반영 |
| 3-7 | **Decision Journal** [신규] | 판단 근거 기록 | 결론·정보선택·검색 → 이유 로그 | 3개월 후 "왜 이렇게 판단했나" 조회 가능 |
| 3-8 | **Self-Awareness 질의 세트** [신규] | 5질문 내장 | 무엇을/왜 모르나, 영향, 학습 필요·시점 | Gap/Need 산출에 반영 |
> **게이트 G1**: 3-2, 3-3, 3-4, 3-5 (Gap→Need→SelfEval→Queue) 4개를 최소 구현 후 **2주 실사용 검증**. 루프가 실제로 돌면(부족 발견→학습 항목 생성→승인→반영) Phase 4 이후 진행. 흔들리면 보강 후 재검증. 이 게이트 전에는 Track 7(고급 학습)을 시작하지 않는다.
### Track 4 — 지식 운영 (Phase 4)
| ID | 모듈 | 책임 | 완료 기준 |
|----|------|------|----------|
| 4-1 | **Knowledge Validation** [신규] | 출처 신뢰도·최신성·적합성·중복·충돌 검증 | 저장 전 검증 통과 필수화 |
| 4-2 | **Belief Revision** [확장: conflictBlock] | 충돌 시 Add/Update/Retire 결정 | 충돌 지식 자동 분류 + 승인 흐름 |
| 4-3 | **Knowledge Decay** [신규] | 분야별 감쇠 (기본: AI 30일 / SEO 90일 / 트렌드 180일 — 업무 도메인 주기 재정의) | 미사용·노후·저신뢰 지식 우선순위 자동 하향/보관 |
| 4-4 | **Knowledge Debt** [신규] | 부족 지식이 막는 업무 수·영향도 관리 | Debt 대시보드 (예: GA4 — Blocked 17, Impact 9) |
| 4-5 | Knowledge Graph **[보류]** | 지식 관계 관리 | G1 통과 + RAG 안정 후 필요성 재평가하여 착수 여부 결정 |
### Track 5 — 기억·맥락 (Phase 5)
| ID | 모듈 | 책임 | 완료 기준 |
|----|------|------|----------|
| 5-1 | **User Memory** [확장: src/memory] | 선호도·피드백·업무 패턴 (원설계 "Digital DNA" 흡수) | "근거 중시, 표 선호" 류 패턴이 산출물에 반영 |
| 5-2 | **Organizational Memory** [신규] | 업무 프로세스·규칙·문화·선호 방식 | 조직 규칙이 시스템 프롬프트에 자동 주입 |
| 5-3 | **Episodic 활용 강화** [확장: EpisodicMemory] | 과거 회의록·조사 이력 자동 참조 | 신규 업무 시 관련 과거 업무 자동 인용 |
| 5-4 | Semantic / Long-Term 정비 [재사용] | 기존 모듈 점검·연결 | 전 레이어와 배선 완료 |
### Track 6 — 일정 관리·도구 통합 (병렬 트랙, Phase 1부터 병행 가능)
| ID | 작업 | 내용 | 완료 기준 |
|----|------|------|----------|
| 6-1 | **캘린더 MCP 통합** [신규] | Datacollect Bridge 패턴으로 캘린더 읽기/쓰기 | 일정 조회·등록·변경 동작 |
| 6-2 | 일정 Requirement Graph | 충돌 감지, 리마인드 규칙, 우선순위 규칙 | 일정 충돌 자동 경고 |
| 6-3 | 외부 액션 승인 게이트 | 비목표 5(승인 없는 외부 액션 금지) 적용 | 쓰기 작업은 승인 후 실행 |
### Track 7 — 고급 학습·성장 (Phase 6~7, G1 통과 후)
| ID | 모듈 | 책임 | 완료 기준 |
|----|------|------|----------|
| 7-1 | **Research Agent** [신규] | 부족 지식 탐색: 검색 계획→수집→요약 | Learning Queue 항목을 자동 조사·요약 |
| 7-2 | **Skill Tree** [신규] | 역량 트리 (예: SEO ├ Technical ├ Schema ├ Indexing └ CWV) | 주요 도메인 트리 정의 |
| 7-3 | **Skill Score** [신규] | 역량 점수 0~100 | 평가 결과로 자동 갱신 |
| 7-4 | **Success Pattern DB** [신규] | 성공 사례 저장·재사용 | 성공 패턴이 신규 업무에 주입 |
| 7-5 | **Growth Analytics** [신규] | 성장 추적 (예: SEO 52→81) | 기간별 성장 리포트 |
| 7-6 | **Curiosity Engine** [신규] | 업무 패턴 → 학습 후보 | 후보가 Learning Queue에 제안됨 |
| 7-7 | **Predictive Learning** [신규] | 미래 수요 예측 선행 학습 (예: MCP/A2A) | 예측 후보 생성 + 승인 흐름 |
| 7-8 | **Experiment Engine** [신규] | 작업 방식 A/B (예: 검색 5회 vs 10회) | 실험→결과→방식 갱신 1사이클 완료 |
| 7-9 | **Goal Success Metrics** [신규] | 업무 완료 ≠ 목표 달성 평가 | 산출물이 사용자 목표에 기여했는지 별도 측정 |
### Track 8 — 거버넌스 (횡단, Phase 1부터 점진 적용)
| ID | 모듈 | 내용 | 완료 기준 |
|----|------|------|----------|
| 8-1 | **Goal Lock** | 사용자 정의 목표만 수행, 생성·변경·재정의 금지 | 시스템 프롬프트+코드 가드 |
| 8-2 | **Permission Based Learning** | 지식 저장은 승인 후 | 승인 UI/흐름 동작 |
| 8-3 | **Human Override** | 중지/삭제/무시/즉시 적용 명령 우선 | 명령 즉시 반영 |
| 8-4 | **Learning Sandbox** | 학습(검색→Sandbox→검증→승인)과 운영 분리 | 미승인 지식이 운영 응답에 미사용 |
| 8-5 | 권한 체계 | 3단계 운용 (내부 enum 0~5 유지) | 단계별 동작 차단 확인 |
### Track 9 — 콘텐츠 (minor, Phase 5~6 사이 틈새 처리)
| ID | 작업 | 내용 | 완료 기준 |
|----|------|------|----------|
| 9-1 | 지침서 자동 주입 | skillInjectionService에 블로그 지침서 v4.1, 경험담 규칙, E-E-A-T, 금지표현 등록 | 글 생성 시 자동 적용 |
| 9-2 | 성공 콘텐츠 RAG | 주제→과거 상위 성과 글 검색→패턴 추출→입력 | 파이프라인 동작 |
| 9-3 | 콘텐츠 검수 | Track 2 Critic 재사용 (작성→검수→수정 3단계) | 검수 통과본만 출력 |
| 9-4 | 좋은/나쁜 결과물 축적 | 수집→분석→규칙화→프롬프트 반영 | 데이터셋+규칙 문서 |
| 9-5 | CoT 추론 프롬프트 | 문제분석→가설→검증→최종답변 + Self-check | 추론형 질의에 적용 |
### Track 10 — 엔지니어링 분해 (각 Phase 시작 시 해당 범위만)
44. DB/저장소 스키마 → 45. 에이전트 상태 모델 → 46. 이벤트 모델 → 47. 큐 구조 → 48. API/메시지 명세 → 49. 모듈별 입출력 JSON 스키마
> 전체를 한 번에 설계하지 않고 **Phase 착수 시 그 Phase 범위만** 분해한다 (빅뱅 설계 방지).
---
## 6. 개발 로드맵 (Phase 0~8 + 게이트)
| Phase | 내용 (Track) | 산출물 | 게이트 |
|-------|------------|--------|--------|
| **P0** | Track 0 준비 | 골든셋, 인벤토리, 결정 기록 | 골든셋 없이는 P1 채점 불가 |
| **P1** | Track 2 업무 품질 + Track 8 기본 가드 | Requirement Graph 3종, Task Analyzer, Critic Loop, Reflection | 골든셋 통과율 측정 시작 |
| **P2** | Track 1 신뢰성 코어 | Confidence, Escalation, Anti-Hallu 강화, Provenance | 저확신 시 질문 동작 |
| **P3** | Track 3 성장 루프 | Gap/Need/SelfEval/Queue + Failure DB + Journal | **G1: 2주 실사용 루프 검증** |
| **P4** | Track 4 지식 운영 | Validation, Belief Revision, Decay, Debt (+Graph 재평가) | 지식 충돌·노후 자동 처리 |
| **P5** | Track 5 기억·맥락 + Track 9 콘텐츠 | User/Org Memory, Episodic 강화, 콘텐츠 파이프라인 | 개인화 반영 확인 |
| **P6** | Track 7 전반부 | Research Agent, Skill Tree/Score, Success DB, Growth Analytics | 학습→역량 갱신 1사이클 |
| **P7** | Track 7 후반부 | Curiosity, Predictive, Experiment, Goal Success Metrics | 자기 개선 실험 1건 완료 |
| **P8** | 통합 (원설계 Phase 9) | Full Self-Evolving 운영: 지속 성장·장기 학습·조직 적응·전문성 강화 | KPI 추세 상승 |
| **병렬** | Track 6 일정/캘린더 | P1부터 독립 진행 | 승인 게이트 필수 |
원설계 Phase 1~9와의 대응: 원 P1→P0/P1, 원 P2→P1/P3, 원 P3→P2/P3, 원 P4→P1/P3, 원 P5→P3/P4/P6, 원 P6→P6, 원 P7→P7, 원 P8→P5/P2/P7, 원 P9→P8. **누락된 원설계 항목 없음.**
---
## 7. KPI
| 분류 | 지표 |
|------|------|
| 업무 | 업무 성공률(골든셋·Requirement 충족률), 사용자 만족도, 재작업률 |
| 신뢰 | 근거 없는 단정 출력 수, 에스컬레이션 적정률(과소/과다 질문), 출처 역추적 가능률 |
| 성장 | Skill Score 증가율, Need Accuracy(학습 우선순위의 적중), 실패 패턴 재발률 |
| 학습 | 학습 후 성능 향상률, 지식 활용률, 잘못된 지식 비율 |
측정 기반: evalHarness + 업무별 골든셋 (P0 산출물). **측정 없는 개선 없음.**
---
## 8. 리스크와 대응
| 리스크 | 대응 |
|--------|------|
| 빅뱅 개발로 루프 검증 실패 | 게이트 G1 강제 — 통과 전 Track 7 착수 금지 |
| 지식 무한 적체 | Knowledge Decay + Debt (Track 4) |
| 잘못된 지식 오염 | Validation + Provenance + Learning Sandbox |
| 과다 질문(에스컬레이션 남발)으로 신뢰 하락 | 에스컬레이션 적정률 KPI로 튜닝 |
| Gemma 4 로컬 성능 한계 | 프롬프트·RAG·검수 3중 보완, 필요 시 작업별 모델 라우팅 검토 |
| 1인 운영 부담 | 승인 흐름을 배치(일일 승인 큐)로 묶어 처리 |
---
## 9. 진행 현황
- [x] 설계서 v1.0 (사용자 제공)
- [x] 마스터 계획 v1.1 (본 문서)
- [x] P0: 회의록 골든셋 8건 (`E:\Wiki\2nd\10_Wiki\Topics\.astra\eval\tasks\meeting-minutes.golden.jsonl`, D:/Meet 전사 기반, reference 는 LLM 초안 — 사용자 검수로 보정 권장) · 템플릿 3종(`assets/eval-templates/tasks/`) — 시장조사·업무조사 골든셋은 미구축
- [x] P1 (부분): Requirement Graph 4업무(`src/intelligence/requirementGraph.ts`) + 커버리지 hook — Task Analyzer 고도화·Critic Loop·Reflection 미착수
- [x] P2: Confidence Engine(`confidenceEngine.ts`) / Escalation Engine(`escalationEngine.ts`) / Epistemic Guard(`epistemicGuardBlock.ts`) / Provenance(citationTrace 확장) — 2026-06-11, 테스트 32건
- [x] P1 잔여: Critic Agent(`criticAgent.ts`, 조건부 1-pass 검수 — 커버리지 누락 또는 확신도<70 인 turn 만 LLM 1회) + Reflection Engine(`reflectionStore.ts`, `<brain>/.astra/growth/reflections.jsonl`) — 2026-06-11
- [x] P3 (부분): Self Evaluation v1 — Task Eval Harness(`taskEvalHarness.ts`) + 명령 `g1nation.eval.tasks`(회의록 골든셋 자동 채점) + `g1nation.growth.report`(주별 확신도/누락률 추이 + 반복 실수 Top). Failure Pattern v1: 반복 누락 요소(3회+)가 Requirement Graph 블록에 자동 강조 — T5 루프 첫 닫힘
- [x] P3 완료 (핵심 4 모두 구현, 2026-06-11): Gap Detector(`gapDetector.ts`, 턴별 RequirementKnowledge), Need Engine(`needEngine.ts`, 설계서 공식 30/25/20/15/10) + Knowledge Inventory v1(보유/부족/없음), Learning Queue(`learningQueue.ts`, proposed 전용 병합 — 승인은 사람만, Permission Based Learning 준수), Decision Journal v1(reflection 의 factors/usedSources 필드). 명령: `g1nation.growth.learningQueue`
- [ ] **G1 게이트 — 2주 실사용 검증** (현재 위치): 업무 turn 을 실제로 처리하며 ① Reflection 적재 ② 반복 누락 강조 발동 ③ Need 산출 ④ 큐 제안→승인 흐름이 실제로 도는지 확인. 통과 전 P6/P7(고급 학습) 착수 금지
- [ ] 다음 측정: VS Code 에서 `Astra: 업무 평가 실행` 1회 → 커버리지 baseline 확보 (성장세 그래프의 0점)
- [x] P4 (2026-06-11): Knowledge Validation + Belief Revision(`knowledgeValidation.ts` — 중복 reject·충돌 시 update/add 권고, 판정만 하고 저장은 승인 흐름; Research Agent P6 배선 대기), Knowledge Decay(`knowledgeDecay.ts` + 명령 `g1nation.knowledge.decayAudit` — 분야별 반감기 감사, 비침습·보고만), Knowledge Debt(needEngine 내 `computeKnowledgeDebt` — learning-needs 리포트에 통합). Knowledge Graph 는 계획대로 보류
- [x] P5 (부분, 2026-06-11): Organizational Memory(`orgMemoryBlock.ts``<brain>/.astra/organization.md` 상시 주입, 파일이 UI). User Memory 는 기존 LongTermMemory 가 담당(추가 개발 불요 판단), Episodic 활용은 기존 5-layer 검색이 커버
- [x] P6 (부분, 2026-06-11): Research Agent(`researchAgent.ts` + 명령 `g1nation.research.runQueue` — approved 큐 항목 → 조사 브리프(LLM) + 내부 지식 현황(두뇌 검색) + 추정 라벨 초안 + Validation 게이트 → proposals/<id>.md, 상태 in-progress 자동 전환. 외부 근거 수집은 /research·/benchmark 안내 — Bridge 에 범용 검색 API 가 없어 의도적 사람-개입 지점). Skill Score(`skillScore.ts` — 확신도 50%+충족률 30%+비에스컬 20%, 전/후반 추세) + Success Pattern DB(전요소충족+확신도90+ 자동 적재) — 성장 리포트에 통합
- [ ] P6 잔여: Growth Analytics 고도화(기간 비교 차트), 성공 패턴의 신규 turn 주입(모범 사례 few-shot)
- [ ] P7: Curiosity / Predictive / Experiment Engine, Goal Success Metrics — **G1 게이트 통과 + reflection 데이터 축적 후** (데이터 없이 만들면 빈 엔진)
- [x] 병렬: 캘린더 통합 (2026-06-11): 일정 충돌 게이트 — `conflictCheck.ts`(구간/종일 겹침 감지) + 구조화 이벤트 캐시(`calendar_cache.json`, refresh 시 md 와 동시 생성) + `<create_calendar_event>` 액션에 차단 배선(충돌 시 생성 보류·사용자 확인 요청, `force="true"` 는 사용자 승인 후에만). 기보유: Google OAuth·이벤트 생성·ICS 캐시·Tasks API
- [ ] 콘텐츠 트랙 (minor): 지침서를 `.agent/skills/` 에 등록(사용자 작업), Critic 재사용은 기구현