2afd1ac589
신뢰성 코어 (P1~P2): - Requirement Graph: 업무 유형(회의록/시장조사/업무조사/일정) 필수 요소 주입 + 커버리지 hook - Confidence Engine(0~100 결정론적) / Escalation Engine(검토 요청) / Epistemic Guard(모름·추정·확실 3분류) - Provenance: citationTrace 에 출처 수정일·오래됨 경고 - Critic Loop: 문제 신호 turn 만 LLM 검수 1회 + 보완 카드 성장 루프 (P3): - Gap Detector(Requirement-Knowledge) / Need Engine(30/25/20/15/10 공식) / Knowledge Inventory - Learning Queue(proposed 전용 병합 — 승인은 사람만) / Decision Journal / Reflection 기록 - 반복 누락 요소(3회+)는 다음 turn 체크리스트에 자동 강조 (T5 루프) 지식 운영 (P4) + 기억 (P5) + 학습 실행 (P6): - Knowledge Validation + Belief Revision(중복 reject·충돌 시 update/add 권고) - Knowledge Decay(분야별 반감기 감사) / Knowledge Debt(blocked x impact) - Organizational Memory(.astra/organization.md 상시 주입) - Research Agent(approved 큐 -> 조사 브리프+추정 라벨 초안+Validation 게이트 -> proposals/) - Skill Score(전/후반 추세) + Success Pattern DB(전요소충족+확신도90+ 자동 적재) 병렬 트랙: - 캘린더 충돌 게이트: conflictCheck + 구조화 이벤트 캐시 + create_calendar_event 차단(force 는 사용자 승인 후) - Task Eval Harness: 회의록 골든셋 자동 채점 명령 + 성장 리포트/학습 큐/노후 점검 명령 신규 모듈 17종(src/intelligence/), VS Code 명령 5종, 설정 11종, 테스트 +89건(전체 508 통과). 설계 문서: docs/SELF_EVOLVING_OS_MASTER_PLAN.md Co-Authored-By: Claude Fable 5 <noreply@anthropic.com>
276 lines
22 KiB
Markdown
276 lines
22 KiB
Markdown
# ASTRA Self-Evolving Digital Employee OS — 마스터 개발 계획 v1.1
|
||
|
||
> 작성일: 2026-06-11
|
||
> 기준 문서: "Self-Evolving Digital Employee OS v1.0" 설계서 (사용자·LLM 공동 설계)
|
||
> 재구성 원칙: **신뢰성 우선(Trust-First)** — 전 모듈을 빠짐없이 개발하되, 순서는 신뢰 → 품질 → 성장 루프 → 운영 → 고급 학습 순으로 재배열
|
||
|
||
---
|
||
|
||
## 1. 비전과 목표
|
||
|
||
ASTRA를 **사용자가 의존하고 신뢰할 수 있는 AI 디지털 직원**으로 만든다.
|
||
|
||
- **주 업무**: 회의록 작성, 일정 관리, 시장 조사, 업무 조사 (지속 확장 예정)
|
||
- **부 업무(minor)**: 블로그 글, 쇼츠/YouTube 스크립트, 이미지 프롬프트
|
||
- **기반 모델**: Gemma 4 (로컬, LM Studio) — 모델 자체를 바꾸지 않고 주변 시스템으로 성능을 만든다
|
||
- 체감 품질 구성비: 모델 20% + 프롬프트 30% + RAG 30% + 평가 20%
|
||
|
||
### 신뢰의 5조건 (전 모듈의 존재 이유)
|
||
|
||
| # | 조건 | 담당 모듈 |
|
||
|---|------|----------|
|
||
| T1 | 모르면 모른다고 말한다 | Anti-Hallucination Layer |
|
||
| T2 | 근거를 제시·역추적할 수 있다 | Knowledge Provenance, Decision Journal |
|
||
| T3 | 품질이 일관적이다 (필수 요소 누락 없음) | Requirement Graph, Critic Agent |
|
||
| T4 | 확신이 없으면 사람에게 묻는다 | Confidence Engine, Escalation Engine |
|
||
| T5 | 같은 실수를 반복하지 않는다 | Failure Pattern DB, 성장 루프 4종 |
|
||
|
||
### 최종 상태
|
||
|
||
```
|
||
업무 수행 → 자기 평가 → 부족함 발견 → 학습 필요 정의 → 학습 → 검증 → 역량 향상 → 다음 업무
|
||
```
|
||
|
||
이 루프가 인간 개입 없이(단, 승인 게이트는 유지) 돌아가는 상태.
|
||
|
||
---
|
||
|
||
## 2. 비목표 (Out of Scope — 코드 가드레일로 구현)
|
||
|
||
1. 독자적 목표 생성 금지
|
||
2. 사용자 목적 변경 금지
|
||
3. 무제한 자율 학습 금지
|
||
4. 승인 없는 장기 기억 저장 금지
|
||
5. 승인 없는 외부 액션 금지
|
||
6. 자기 코드 수정 금지
|
||
7. 자기 복제 금지
|
||
|
||
---
|
||
|
||
## 3. 현재 자산 맵 (설계 모듈 ↔ 기존 코드)
|
||
|
||
| 설계 모듈 | 기존 자산 | 작업 성격 |
|
||
|---|---|---|
|
||
| Anti-Hallucination | `src/retrieval/coveBlock.ts`, `src/agent/postHocSelfCheck.ts`, `src/agent/termValidator.ts` | 확장 |
|
||
| Knowledge Provenance | `src/retrieval/citationTrace.ts` | 확장 |
|
||
| Belief Revision / 충돌 | `src/retrieval/conflictBlock.ts`, `src/core/conflict.ts` | 확장 |
|
||
| RAG + 평가 | `src/retrieval/chunker.ts`, `evalHarness.ts` + 골든셋 | 진행 중 (청킹 개선) |
|
||
| Memory Layer | `src/memory/` (Episodic/LongTerm/ShortTerm/Procedural/Project + Extractor + distillation) | 대부분 보유 |
|
||
| Worker Agent / 오케스트레이션 | `src/agents/AgentWorkflowManager.ts`, `factory.ts` | 보유 |
|
||
| 지침 자동 주입 | `src/skills/skillInjectionService.ts`, `scopedBrainRetriever.ts` | 보유 |
|
||
| Learning Queue 인프라 | `src/core/queue.ts`, `events.ts` | 재사용 |
|
||
| 외부 도구 연동 | Datacollect MCP Bridge (:3002) | 패턴 재사용 |
|
||
| 의도 명확화 | `src/retrieval/intentClarification.ts` | 확장 (Task Analyzer 기반) |
|
||
|
||
**신규 개발 필수**: Requirement Graph, Confidence Engine, Escalation Engine, Gap Detector, Need Engine, Self Evaluation, Learning Queue(로직), Knowledge Inventory, Failure/Success Pattern DB, Decision Journal, Skill Tree/Score, Knowledge Decay/Debt, Curiosity/Predictive/Experiment Engine, Research Agent, Goal Success Metrics, Growth Analytics, Organizational/User Memory(확장), Constitution Layer, 캘린더 통합
|
||
|
||
---
|
||
|
||
## 4. 전체 아키텍처 (레이어)
|
||
|
||
```
|
||
Constitution Layer ── 불변 규칙 (Goal Lock, Permission Learning, Human Override, Sandbox)
|
||
↓
|
||
Human Control Layer ── 권한 3단계 (단순화: 실행 / 학습 제안 / 지식 저장·수정=승인)
|
||
↓
|
||
Intelligence Layer ── Task Analyzer, Requirement Graph, Knowledge Inventory,
|
||
Gap Detector, Confidence Engine, Need Engine, Self-Awareness
|
||
↓
|
||
Execution Layer ── Worker Agent, Critic Agent, Debate Loop, Reflection Engine
|
||
↓
|
||
Learning Layer ── Learning Queue, Research Agent, Curiosity, Predictive, Experiment
|
||
↓
|
||
Knowledge Layer ── KB, RAG, (Knowledge Graph: 보류), Provenance, Validation,
|
||
Belief Revision, Decay, Debt
|
||
↓
|
||
Memory Layer ── Episodic, Semantic, Long-Term, Organizational, User
|
||
↓
|
||
Growth Layer ── Skill Tree, Skill Score, Failure/Success Pattern DB,
|
||
Decision Journal, Growth Analytics
|
||
횡단(Cross-cutting) ── Anti-Hallucination, Escalation Engine, Goal Success Metrics, KPI
|
||
```
|
||
|
||
> 권한 체계 단순화 근거: 1인 사용자 환경. 원설계 Level 0~5는 다인 조직용이므로 3단계로 축약하되, 내부 enum은 0~5를 유지해 향후 확장 가능하게 한다.
|
||
|
||
---
|
||
|
||
## 5. 모듈 명세 (전체 — 누락 없음)
|
||
|
||
표기: **[신규]** 새로 개발 / **[확장]** 기존 코드 확장 / **[재사용]** 기존 것 그대로 활용 / **[보류]** 게이트 통과 후 재평가
|
||
|
||
### Track 0 — 준비 (Phase 0)
|
||
|
||
| ID | 모듈/작업 | 내용 | 완료 기준 |
|
||
|----|----------|------|----------|
|
||
| 0-1 | 서빙 환경 확정 | LM Studio + Gemma 4 기준 확인 (`src/lmstudio/`) | 모델·엔드포인트 문서화 |
|
||
| 0-2 | 벡터 저장소 확정 | 기존 `embeddings.ts`/`brainIndex.ts` 유지 (교체 안 함) | 결정 기록 |
|
||
| 0-3 | **업무별 골든셋** [신규] | 회의록·시장조사·업무조사 각 5~10건 입력+기대결과물. evalHarness 패턴 재사용 | 골든셋 파일 + 채점 기준 존재 |
|
||
| 0-4 | 데이터 인벤토리 | 과거 회의록·조사 결과물·피드백 소재 파악, 지침서(블로그 v4.1, E-E-A-T, 금지표현 등) 목록화 | 인벤토리 문서 |
|
||
|
||
### Track 1 — 신뢰성 코어 (Phase 2)
|
||
|
||
| ID | 모듈 | 책임 | 입력 → 출력 | 완료 기준 |
|
||
|----|------|------|------------|----------|
|
||
| 1-1 | **Confidence Engine** [신규] | 산출물별 확신도 산출 | 답변+근거 → 0~100 점수, 4구간(90+/70~89/50~69/<50) | <50이면 자동 추가조사 트리거 |
|
||
| 1-2 | **Escalation Engine** [신규] | 인간 개입 필요성 판단 | 확신도·영향도·정보부족·규칙충돌 → 검토요청/자체진행 | 저확신+고영향 시 반드시 질문 |
|
||
| 1-3 | **Anti-Hallucination 강화** [확장: coveBlock, postHocSelfCheck] | 모름/추정/확인필요 3분류 강제 | 모든 출력에 근거 등급 라벨 | 근거 없는 단정 출력 0건 (골든셋 기준) |
|
||
| 1-4 | **Provenance 확장** [확장: citationTrace] | 출처·수집일·검증일·신뢰도 메타데이터 | 지식 항목 → `{source, collected_at, validated_at, confidence}` | 임의 결론의 출처 역추적 가능 |
|
||
|
||
### Track 2 — 업무 품질 (Phase 1) ★최초 착수
|
||
|
||
| ID | 모듈 | 책임 | 입력 → 출력 | 완료 기준 |
|
||
|----|------|------|------------|----------|
|
||
| 2-1 | **Requirement Graph** [신규] | 업무 유형별 필수 요소 정의 | 업무유형 → 필수요소 체크리스트 | 회의록(참석자/결정사항/액션아이템/담당자/기한), 시장조사(시장규모/성장률/경쟁사/가격/니즈/트렌드), 업무조사(사용자와 정의) 3종 등록 |
|
||
| 2-2 | **Task Analyzer** [확장: intentClarification] | 요청 분석 | 사용자 요청 → 업무유형·성공기준·결과물·제약 | 골든셋 요청의 유형 분류 정확도 ≥90% |
|
||
| 2-3 | **Critic Agent + Debate Loop** [신규+재사용: AgentWorkflowManager] | 제출 전 자동 검수 | 초안 → 비판 → 재작성 → 재검토 | Requirement 누락 시 자체 보완 후 제출 |
|
||
| 2-4 | **Reflection Engine** [신규] | 업무 후 회고 | 완료 업무 → 부족점·원인·필요정보 기록 | 회고 레코드가 Failure Pattern DB에 적재 |
|
||
|
||
### Track 3 — 성장 루프 (Phase 3) ★검증 게이트
|
||
|
||
| ID | 모듈 | 책임 | 입력 → 출력 | 완료 기준 |
|
||
|----|------|------|------------|----------|
|
||
| 3-1 | **Knowledge Inventory** [신규] | 보유 지식 파악 | 도메인 → 보유/부족/없음 | 주요 업무 도메인 커버 |
|
||
| 3-2 | **Gap Detector** [신규] | Gap = Requirement − Knowledge | 업무+인벤토리 → 부족지식·영향도·긴급도 | 실제 부족이 Gap으로 검출됨 |
|
||
| 3-3 | **Need Engine** [신규] | 학습 우선순위 산출 | Need = 정보부족×30% + 실패율×25% + 빈도×20% + 확신부족×15% + 피드백×10% | 우선순위 목록 자동 생성 |
|
||
| 3-4 | **Self Evaluation** [신규] | 산출물 자동 채점 | 결과물+골든셋 기준 → 점수(정확성/논리성/가독성/만족도 1~10 + 사실오류 수) | 골든셋과 사람 평가의 상관 확인 |
|
||
| 3-5 | **Learning Queue** [확장: core/queue] | 학습 대기열 | Need 목록 → 우선순위 큐 (예: GA4/High/전환율 분석 실패) | 큐 적재·소비·승인 흐름 동작 |
|
||
| 3-6 | **Failure Pattern DB** [신규] | 반복 실수 추적 | 회고·평가 → 패턴+횟수 (예: 액션아이템 누락 N회) | 동일 실수 재발 시 카운트 증가 + 프롬프트 반영 |
|
||
| 3-7 | **Decision Journal** [신규] | 판단 근거 기록 | 결론·정보선택·검색 → 이유 로그 | 3개월 후 "왜 이렇게 판단했나" 조회 가능 |
|
||
| 3-8 | **Self-Awareness 질의 세트** [신규] | 5질문 내장 | 무엇을/왜 모르나, 영향, 학습 필요·시점 | Gap/Need 산출에 반영 |
|
||
|
||
> **게이트 G1**: 3-2, 3-3, 3-4, 3-5 (Gap→Need→SelfEval→Queue) 4개를 최소 구현 후 **2주 실사용 검증**. 루프가 실제로 돌면(부족 발견→학습 항목 생성→승인→반영) Phase 4 이후 진행. 흔들리면 보강 후 재검증. 이 게이트 전에는 Track 7(고급 학습)을 시작하지 않는다.
|
||
|
||
### Track 4 — 지식 운영 (Phase 4)
|
||
|
||
| ID | 모듈 | 책임 | 완료 기준 |
|
||
|----|------|------|----------|
|
||
| 4-1 | **Knowledge Validation** [신규] | 출처 신뢰도·최신성·적합성·중복·충돌 검증 | 저장 전 검증 통과 필수화 |
|
||
| 4-2 | **Belief Revision** [확장: conflictBlock] | 충돌 시 Add/Update/Retire 결정 | 충돌 지식 자동 분류 + 승인 흐름 |
|
||
| 4-3 | **Knowledge Decay** [신규] | 분야별 감쇠 (기본: AI 30일 / SEO 90일 / 트렌드 180일 — 업무 도메인 주기 재정의) | 미사용·노후·저신뢰 지식 우선순위 자동 하향/보관 |
|
||
| 4-4 | **Knowledge Debt** [신규] | 부족 지식이 막는 업무 수·영향도 관리 | Debt 대시보드 (예: GA4 — Blocked 17, Impact 9) |
|
||
| 4-5 | Knowledge Graph **[보류]** | 지식 관계 관리 | G1 통과 + RAG 안정 후 필요성 재평가하여 착수 여부 결정 |
|
||
|
||
### Track 5 — 기억·맥락 (Phase 5)
|
||
|
||
| ID | 모듈 | 책임 | 완료 기준 |
|
||
|----|------|------|----------|
|
||
| 5-1 | **User Memory** [확장: src/memory] | 선호도·피드백·업무 패턴 (원설계 "Digital DNA" 흡수) | "근거 중시, 표 선호" 류 패턴이 산출물에 반영 |
|
||
| 5-2 | **Organizational Memory** [신규] | 업무 프로세스·규칙·문화·선호 방식 | 조직 규칙이 시스템 프롬프트에 자동 주입 |
|
||
| 5-3 | **Episodic 활용 강화** [확장: EpisodicMemory] | 과거 회의록·조사 이력 자동 참조 | 신규 업무 시 관련 과거 업무 자동 인용 |
|
||
| 5-4 | Semantic / Long-Term 정비 [재사용] | 기존 모듈 점검·연결 | 전 레이어와 배선 완료 |
|
||
|
||
### Track 6 — 일정 관리·도구 통합 (병렬 트랙, Phase 1부터 병행 가능)
|
||
|
||
| ID | 작업 | 내용 | 완료 기준 |
|
||
|----|------|------|----------|
|
||
| 6-1 | **캘린더 MCP 통합** [신규] | Datacollect Bridge 패턴으로 캘린더 읽기/쓰기 | 일정 조회·등록·변경 동작 |
|
||
| 6-2 | 일정 Requirement Graph | 충돌 감지, 리마인드 규칙, 우선순위 규칙 | 일정 충돌 자동 경고 |
|
||
| 6-3 | 외부 액션 승인 게이트 | 비목표 5(승인 없는 외부 액션 금지) 적용 | 쓰기 작업은 승인 후 실행 |
|
||
|
||
### Track 7 — 고급 학습·성장 (Phase 6~7, G1 통과 후)
|
||
|
||
| ID | 모듈 | 책임 | 완료 기준 |
|
||
|----|------|------|----------|
|
||
| 7-1 | **Research Agent** [신규] | 부족 지식 탐색: 검색 계획→수집→요약 | Learning Queue 항목을 자동 조사·요약 |
|
||
| 7-2 | **Skill Tree** [신규] | 역량 트리 (예: SEO ├ Technical ├ Schema ├ Indexing └ CWV) | 주요 도메인 트리 정의 |
|
||
| 7-3 | **Skill Score** [신규] | 역량 점수 0~100 | 평가 결과로 자동 갱신 |
|
||
| 7-4 | **Success Pattern DB** [신규] | 성공 사례 저장·재사용 | 성공 패턴이 신규 업무에 주입 |
|
||
| 7-5 | **Growth Analytics** [신규] | 성장 추적 (예: SEO 52→81) | 기간별 성장 리포트 |
|
||
| 7-6 | **Curiosity Engine** [신규] | 업무 패턴 → 학습 후보 | 후보가 Learning Queue에 제안됨 |
|
||
| 7-7 | **Predictive Learning** [신규] | 미래 수요 예측 선행 학습 (예: MCP/A2A) | 예측 후보 생성 + 승인 흐름 |
|
||
| 7-8 | **Experiment Engine** [신규] | 작업 방식 A/B (예: 검색 5회 vs 10회) | 실험→결과→방식 갱신 1사이클 완료 |
|
||
| 7-9 | **Goal Success Metrics** [신규] | 업무 완료 ≠ 목표 달성 평가 | 산출물이 사용자 목표에 기여했는지 별도 측정 |
|
||
|
||
### Track 8 — 거버넌스 (횡단, Phase 1부터 점진 적용)
|
||
|
||
| ID | 모듈 | 내용 | 완료 기준 |
|
||
|----|------|------|----------|
|
||
| 8-1 | **Goal Lock** | 사용자 정의 목표만 수행, 생성·변경·재정의 금지 | 시스템 프롬프트+코드 가드 |
|
||
| 8-2 | **Permission Based Learning** | 지식 저장은 승인 후 | 승인 UI/흐름 동작 |
|
||
| 8-3 | **Human Override** | 중지/삭제/무시/즉시 적용 명령 우선 | 명령 즉시 반영 |
|
||
| 8-4 | **Learning Sandbox** | 학습(검색→Sandbox→검증→승인)과 운영 분리 | 미승인 지식이 운영 응답에 미사용 |
|
||
| 8-5 | 권한 체계 | 3단계 운용 (내부 enum 0~5 유지) | 단계별 동작 차단 확인 |
|
||
|
||
### Track 9 — 콘텐츠 (minor, Phase 5~6 사이 틈새 처리)
|
||
|
||
| ID | 작업 | 내용 | 완료 기준 |
|
||
|----|------|------|----------|
|
||
| 9-1 | 지침서 자동 주입 | skillInjectionService에 블로그 지침서 v4.1, 경험담 규칙, E-E-A-T, 금지표현 등록 | 글 생성 시 자동 적용 |
|
||
| 9-2 | 성공 콘텐츠 RAG | 주제→과거 상위 성과 글 검색→패턴 추출→입력 | 파이프라인 동작 |
|
||
| 9-3 | 콘텐츠 검수 | Track 2 Critic 재사용 (작성→검수→수정 3단계) | 검수 통과본만 출력 |
|
||
| 9-4 | 좋은/나쁜 결과물 축적 | 수집→분석→규칙화→프롬프트 반영 | 데이터셋+규칙 문서 |
|
||
| 9-5 | CoT 추론 프롬프트 | 문제분석→가설→검증→최종답변 + Self-check | 추론형 질의에 적용 |
|
||
|
||
### Track 10 — 엔지니어링 분해 (각 Phase 시작 시 해당 범위만)
|
||
|
||
44. DB/저장소 스키마 → 45. 에이전트 상태 모델 → 46. 이벤트 모델 → 47. 큐 구조 → 48. API/메시지 명세 → 49. 모듈별 입출력 JSON 스키마
|
||
|
||
> 전체를 한 번에 설계하지 않고 **Phase 착수 시 그 Phase 범위만** 분해한다 (빅뱅 설계 방지).
|
||
|
||
---
|
||
|
||
## 6. 개발 로드맵 (Phase 0~8 + 게이트)
|
||
|
||
| Phase | 내용 (Track) | 산출물 | 게이트 |
|
||
|-------|------------|--------|--------|
|
||
| **P0** | Track 0 준비 | 골든셋, 인벤토리, 결정 기록 | 골든셋 없이는 P1 채점 불가 |
|
||
| **P1** | Track 2 업무 품질 + Track 8 기본 가드 | Requirement Graph 3종, Task Analyzer, Critic Loop, Reflection | 골든셋 통과율 측정 시작 |
|
||
| **P2** | Track 1 신뢰성 코어 | Confidence, Escalation, Anti-Hallu 강화, Provenance | 저확신 시 질문 동작 |
|
||
| **P3** | Track 3 성장 루프 | Gap/Need/SelfEval/Queue + Failure DB + Journal | **G1: 2주 실사용 루프 검증** |
|
||
| **P4** | Track 4 지식 운영 | Validation, Belief Revision, Decay, Debt (+Graph 재평가) | 지식 충돌·노후 자동 처리 |
|
||
| **P5** | Track 5 기억·맥락 + Track 9 콘텐츠 | User/Org Memory, Episodic 강화, 콘텐츠 파이프라인 | 개인화 반영 확인 |
|
||
| **P6** | Track 7 전반부 | Research Agent, Skill Tree/Score, Success DB, Growth Analytics | 학습→역량 갱신 1사이클 |
|
||
| **P7** | Track 7 후반부 | Curiosity, Predictive, Experiment, Goal Success Metrics | 자기 개선 실험 1건 완료 |
|
||
| **P8** | 통합 (원설계 Phase 9) | Full Self-Evolving 운영: 지속 성장·장기 학습·조직 적응·전문성 강화 | KPI 추세 상승 |
|
||
| **병렬** | Track 6 일정/캘린더 | P1부터 독립 진행 | 승인 게이트 필수 |
|
||
|
||
원설계 Phase 1~9와의 대응: 원 P1→P0/P1, 원 P2→P1/P3, 원 P3→P2/P3, 원 P4→P1/P3, 원 P5→P3/P4/P6, 원 P6→P6, 원 P7→P7, 원 P8→P5/P2/P7, 원 P9→P8. **누락된 원설계 항목 없음.**
|
||
|
||
---
|
||
|
||
## 7. KPI
|
||
|
||
| 분류 | 지표 |
|
||
|------|------|
|
||
| 업무 | 업무 성공률(골든셋·Requirement 충족률), 사용자 만족도, 재작업률 |
|
||
| 신뢰 | 근거 없는 단정 출력 수, 에스컬레이션 적정률(과소/과다 질문), 출처 역추적 가능률 |
|
||
| 성장 | Skill Score 증가율, Need Accuracy(학습 우선순위의 적중), 실패 패턴 재발률 |
|
||
| 학습 | 학습 후 성능 향상률, 지식 활용률, 잘못된 지식 비율 |
|
||
|
||
측정 기반: evalHarness + 업무별 골든셋 (P0 산출물). **측정 없는 개선 없음.**
|
||
|
||
---
|
||
|
||
## 8. 리스크와 대응
|
||
|
||
| 리스크 | 대응 |
|
||
|--------|------|
|
||
| 빅뱅 개발로 루프 검증 실패 | 게이트 G1 강제 — 통과 전 Track 7 착수 금지 |
|
||
| 지식 무한 적체 | Knowledge Decay + Debt (Track 4) |
|
||
| 잘못된 지식 오염 | Validation + Provenance + Learning Sandbox |
|
||
| 과다 질문(에스컬레이션 남발)으로 신뢰 하락 | 에스컬레이션 적정률 KPI로 튜닝 |
|
||
| Gemma 4 로컬 성능 한계 | 프롬프트·RAG·검수 3중 보완, 필요 시 작업별 모델 라우팅 검토 |
|
||
| 1인 운영 부담 | 승인 흐름을 배치(일일 승인 큐)로 묶어 처리 |
|
||
|
||
---
|
||
|
||
## 9. 진행 현황
|
||
|
||
- [x] 설계서 v1.0 (사용자 제공)
|
||
- [x] 마스터 계획 v1.1 (본 문서)
|
||
- [x] P0: 회의록 골든셋 8건 (`E:\Wiki\2nd\10_Wiki\Topics\.astra\eval\tasks\meeting-minutes.golden.jsonl`, D:/Meet 전사 기반, reference 는 LLM 초안 — 사용자 검수로 보정 권장) · 템플릿 3종(`assets/eval-templates/tasks/`) — 시장조사·업무조사 골든셋은 미구축
|
||
- [x] P1 (부분): Requirement Graph 4업무(`src/intelligence/requirementGraph.ts`) + 커버리지 hook — Task Analyzer 고도화·Critic Loop·Reflection 미착수
|
||
- [x] P2: Confidence Engine(`confidenceEngine.ts`) / Escalation Engine(`escalationEngine.ts`) / Epistemic Guard(`epistemicGuardBlock.ts`) / Provenance(citationTrace 확장) — 2026-06-11, 테스트 32건
|
||
- [x] P1 잔여: Critic Agent(`criticAgent.ts`, 조건부 1-pass 검수 — 커버리지 누락 또는 확신도<70 인 turn 만 LLM 1회) + Reflection Engine(`reflectionStore.ts`, `<brain>/.astra/growth/reflections.jsonl`) — 2026-06-11
|
||
- [x] P3 (부분): Self Evaluation v1 — Task Eval Harness(`taskEvalHarness.ts`) + 명령 `g1nation.eval.tasks`(회의록 골든셋 자동 채점) + `g1nation.growth.report`(주별 확신도/누락률 추이 + 반복 실수 Top). Failure Pattern v1: 반복 누락 요소(3회+)가 Requirement Graph 블록에 자동 강조 — T5 루프 첫 닫힘
|
||
- [x] P3 완료 (핵심 4 모두 구현, 2026-06-11): Gap Detector(`gapDetector.ts`, 턴별 Requirement−Knowledge), Need Engine(`needEngine.ts`, 설계서 공식 30/25/20/15/10) + Knowledge Inventory v1(보유/부족/없음), Learning Queue(`learningQueue.ts`, proposed 전용 병합 — 승인은 사람만, Permission Based Learning 준수), Decision Journal v1(reflection 의 factors/usedSources 필드). 명령: `g1nation.growth.learningQueue`
|
||
- [ ] **G1 게이트 — 2주 실사용 검증** (현재 위치): 업무 turn 을 실제로 처리하며 ① Reflection 적재 ② 반복 누락 강조 발동 ③ Need 산출 ④ 큐 제안→승인 흐름이 실제로 도는지 확인. 통과 전 P6/P7(고급 학습) 착수 금지
|
||
- [ ] 다음 측정: VS Code 에서 `Astra: 업무 평가 실행` 1회 → 커버리지 baseline 확보 (성장세 그래프의 0점)
|
||
- [x] P4 (2026-06-11): Knowledge Validation + Belief Revision(`knowledgeValidation.ts` — 중복 reject·충돌 시 update/add 권고, 판정만 하고 저장은 승인 흐름; Research Agent P6 배선 대기), Knowledge Decay(`knowledgeDecay.ts` + 명령 `g1nation.knowledge.decayAudit` — 분야별 반감기 감사, 비침습·보고만), Knowledge Debt(needEngine 내 `computeKnowledgeDebt` — learning-needs 리포트에 통합). Knowledge Graph 는 계획대로 보류
|
||
- [x] P5 (부분, 2026-06-11): Organizational Memory(`orgMemoryBlock.ts` — `<brain>/.astra/organization.md` 상시 주입, 파일이 UI). User Memory 는 기존 LongTermMemory 가 담당(추가 개발 불요 판단), Episodic 활용은 기존 5-layer 검색이 커버
|
||
- [x] P6 (부분, 2026-06-11): Research Agent(`researchAgent.ts` + 명령 `g1nation.research.runQueue` — approved 큐 항목 → 조사 브리프(LLM) + 내부 지식 현황(두뇌 검색) + 추정 라벨 초안 + Validation 게이트 → proposals/<id>.md, 상태 in-progress 자동 전환. 외부 근거 수집은 /research·/benchmark 안내 — Bridge 에 범용 검색 API 가 없어 의도적 사람-개입 지점). Skill Score(`skillScore.ts` — 확신도 50%+충족률 30%+비에스컬 20%, 전/후반 추세) + Success Pattern DB(전요소충족+확신도90+ 자동 적재) — 성장 리포트에 통합
|
||
- [ ] P6 잔여: Growth Analytics 고도화(기간 비교 차트), 성공 패턴의 신규 turn 주입(모범 사례 few-shot)
|
||
- [ ] P7: Curiosity / Predictive / Experiment Engine, Goal Success Metrics — **G1 게이트 통과 + reflection 데이터 축적 후** (데이터 없이 만들면 빈 엔진)
|
||
- [x] 병렬: 캘린더 통합 (2026-06-11): 일정 충돌 게이트 — `conflictCheck.ts`(구간/종일 겹침 감지) + 구조화 이벤트 캐시(`calendar_cache.json`, refresh 시 md 와 동시 생성) + `<create_calendar_event>` 액션에 차단 배선(충돌 시 생성 보류·사용자 확인 요청, `force="true"` 는 사용자 승인 후에만). 기보유: Google OAuth·이벤트 생성·ICS 캐시·Tasks API
|
||
- [ ] 콘텐츠 트랙 (minor): 지침서를 `.agent/skills/` 에 등록(사용자 작업), Critic 재사용은 기구현
|