diff --git a/package-lock.json b/package-lock.json index ff560c5..4d7fd3f 100644 --- a/package-lock.json +++ b/package-lock.json @@ -1,12 +1,12 @@ { "name": "astra", - "version": "2.2.217", + "version": "2.2.218", "lockfileVersion": 3, "requires": true, "packages": { "": { "name": "astra", - "version": "2.2.217", + "version": "2.2.218", "license": "MIT", "dependencies": { "@lmstudio/sdk": "^1.5.0", diff --git a/package.json b/package.json index bec8ce2..67fe063 100644 --- a/package.json +++ b/package.json @@ -2,7 +2,7 @@ "name": "astra", "displayName": "Astra", "description": "The personal intelligence layer for Antigravity and VS Code. A private cognitive partner for deep project context, memory, and proactive strategic decision-making.", - "version": "2.2.217", + "version": "2.2.218", "publisher": "g1nation", "license": "MIT", "icon": "assets/icon.png", @@ -620,8 +620,8 @@ }, "g1nation.chunkLevelRetrieval": { "type": "boolean", - "default": false, - "description": "섹션 청크 단위 검색 (Phase 1-가). 켜면 두뇌 검색이 파일이 아니라 '##' 헤딩 기준 섹션 청크 단위로 색인·스코어링하고 매치된 섹션을 주입합니다. 긴 다주제 문서의 검색 정밀도를 높입니다. '검색 평가 실행'으로 끄고/켜고 비교해 보세요. 기본 false." + "default": true, + "description": "섹션 청크 단위 검색 (Phase 1-가). 두뇌 검색이 파일이 아니라 '##' 헤딩 기준 섹션 청크 단위로 색인·스코어링하고 매치된 섹션을 주입합니다. 골든셋 측정에서 파일 단위 대비 recall@1 12.5%→75.0% · MRR 0.217→0.802 로 검증되어 기본 켜짐(v2.2.218). 문제 시 끄고 '검색 평가 실행'으로 비교 가능." }, "g1nation.chunkTargetChars": { "type": "number", diff --git a/src/config.ts b/src/config.ts index 8f7788f..7f68dc7 100644 --- a/src/config.ts +++ b/src/config.ts @@ -488,7 +488,7 @@ export function getConfig(): IAgentConfig { finalOnlyRetryOnThoughtLeak: cfg.get('finalOnlyRetryOnThoughtLeak', true), embeddingModel: (cfg.get('embeddingModel', '') || '').trim(), embeddingBlendAlpha: Math.max(0, Math.min(1, cfg.get('embeddingBlendAlpha', 0.5))), - chunkLevelRetrieval: cfg.get('chunkLevelRetrieval', false), + chunkLevelRetrieval: cfg.get('chunkLevelRetrieval', true), chunkTargetChars: Math.max(400, Math.min(4000, cfg.get('chunkTargetChars', 1200))), conflictHighlightingEnabled: cfg.get('conflictHighlightingEnabled', true), conflictSeverityThreshold: (cfg.get('conflictSeverityThreshold', 'medium') as 'low' | 'medium' | 'high') || 'medium', diff --git a/src/features/datacollect/handlers.ts b/src/features/datacollect/handlers.ts index adeb45c..737ba43 100644 --- a/src/features/datacollect/handlers.ts +++ b/src/features/datacollect/handlers.ts @@ -30,6 +30,7 @@ import { transcriptHash, taskKey, loadRegisteredKeys, markRegistered, savePending, loadPending, clearPending, classifyAction, registerAction, buildNotes, parseConfirmArgs, renderPendingQuestion, + loadGlossaryTerms, updateGlossary, extractGlossaryCandidates, type PendingItem, type PendingFile, } from './scheduling/meetRegistration'; import { @@ -554,6 +555,15 @@ async function runMeet(arg: string, view: Webview | undefined, context?: vscode. } // 중복 방지 키 — 동일 녹취 재실행 시 이미 등록된 액션을 건너뛰기 위한 해시 (원본 전체 기준). const tHash = transcriptHash(transcript); + const userMetadata = metadata; // 용어집 후보 추출용 — 자동 보강 전 원본 보존 + // [자동 용어집] 이전 /meet 들에서 누적된 인명·용어를 메타데이터에 보강 — + // meetPrompt 가 메타데이터를 STT 보정 용어집으로 쓰므로 반복 회의의 표기 + // 일관성이 자동으로 좋아진다. 사용자 입력 메타데이터가 항상 우선(앞에 배치). + const glossaryTerms = loadGlossaryTerms(); + if (glossaryTerms.length) { + metadata = `${metadata ? metadata + '\n' : ''}[자동 용어집 — 이전 회의에서 누적된 인명·용어 표기] ${glossaryTerms.join(', ')}`; + chunk(view, `📚 자동 용어집 ${glossaryTerms.length}개 용어 주입\n`); + } // v2.2.211: 60K 하드 자르기 폐지 → 세그먼트 추출(Map) + 병합(Reduce). // 단일샷 60K 는 로컬 32K 컨텍스트에서 잘리거나 lost-in-the-middle 로 중간 // 안건이 증발하던 원인. 12K 조각별 추출은 입력이 짧아 누락·날조 둘 다 준다. @@ -657,6 +667,11 @@ async function runMeet(arg: string, view: Webview | undefined, context?: vscode. chunk(view, `\nℹ️ 캘린더 자동 등록을 건너뜁니다 — Google Calendar OAuth(쓰기)가 연결되지 않았습니다. (Astra Settings → Google 섹션에서 연결)\n`); } else { const tasks = parseActionItems(report); + // [자동 용어집 누적] 이번 회의의 담당자 이름 + 사용자가 입력한 메타데이터 + // 용어를 워크스페이스 용어집에 저장 — 다음 /meet 의 STT 보정에 자동 사용. + try { + updateGlossary([...tasks.map(t => t.owner), ...extractGlossaryCandidates(userMetadata)]); + } catch { /* 용어집 실패는 본 흐름에 영향 없음 */ } if (tasks.length === 0) { chunk(view, `\nℹ️ 액션 아이템이 없어 캘린더에 등록할 항목이 없습니다.\n`); } else { diff --git a/src/features/datacollect/scheduling/meetRegistration.ts b/src/features/datacollect/scheduling/meetRegistration.ts index 1869d5f..d64c412 100644 --- a/src/features/datacollect/scheduling/meetRegistration.ts +++ b/src/features/datacollect/scheduling/meetRegistration.ts @@ -251,3 +251,38 @@ export function renderPendingQuestion(p: PendingFile): string { export function logMeetRegistration(event: string, data: Record): void { logInfo(`/meet 등록 게이트: ${event}`, data); } + +// ── 회의 용어집 (반복 회의의 STT 보정 정확도용) ───────────────────────────── +// meetPrompt 는 메타데이터를 "용어집 역할"로 쓴다 — 매번 수동 입력하는 대신, +// 이전 /meet 실행에서 나온 인명(담당)·사용자 입력 메타데이터 용어를 워크스페이스에 +// 누적하고 다음 실행 때 자동 주입한다. (.astra/meet_glossary.json) +const GLOSSARY_REL = 'meet_glossary.json'; +const GLOSSARY_MAX = 120; +type Glossary = { terms: string[]; updatedAt: string }; + +export function loadGlossaryTerms(): string[] { + return (readJson(GLOSSARY_REL)?.terms || []).filter(t => typeof t === 'string' && t.trim()); +} + +/** 담당자 이름·메타데이터에서 뽑은 용어를 용어집에 누적 (중복 제거, 상한 유지). */ +export function updateGlossary(newTerms: string[]): void { + const cleaned = newTerms + .map(t => (t || '').trim()) + .filter(t => t.length >= 2 && t.length <= 30 && !/미지정|없음|확인|불명/.test(t)); + if (!cleaned.length) return; + const cur = loadGlossaryTerms(); + const set = new Set(cur); + for (const t of cleaned) set.add(t); + // 상한 초과 시 오래된 것부터 제거 (Set 삽입 순서 = 누적 순서) + const all = [...set]; + const terms = all.length > GLOSSARY_MAX ? all.slice(all.length - GLOSSARY_MAX) : all; + writeJson(GLOSSARY_REL, { terms, updatedAt: new Date().toISOString() } satisfies Glossary); +} + +/** 사용자 메타데이터 입력에서 용어 후보 추출 — 쉼표/슬래시/공백 구분 토큰 중 고유명사형. */ +export function extractGlossaryCandidates(metadata: string): string[] { + return (metadata || '') + .split(/[,,/·;\n]+/) + .map(t => t.replace(/^[\s::\-–·]+|[\s::\-–·]+$/g, '')) + .filter(t => t.length >= 2 && t.length <= 30 && !/^\d+$/.test(t)); +} diff --git a/src/lib/contextBuilders/memoryContext.ts b/src/lib/contextBuilders/memoryContext.ts index cc1196a..f00b158 100644 --- a/src/lib/contextBuilders/memoryContext.ts +++ b/src/lib/contextBuilders/memoryContext.ts @@ -377,5 +377,35 @@ export async function buildMemoryContext(deps: MemoryContextDeps): Promise ({ title: c.title, content: c.content }))); const memoryBlock = deps.retrievalOrchestrator.buildContextString(result); - return [lessonBlock, memoryBlock].filter(Boolean).join('\n\n'); + // [확신도 전역화] 검색 근거 강도를 평가해 답변 정책을 함께 주입 — /meet 의 + // "확신 없으면 단정 대신 표시" 원칙을 모든 대화로 확장. 근거가 약한데 단정적으로 + // 답하는 '그럴듯한 오답'을 구조적으로 줄인다. + const groundingBlock = buildGroundingBlock(result); + return [groundingBlock, lessonBlock, memoryBlock].filter(Boolean).join('\n\n'); +} + +/** + * 검색 결과의 근거 강도 → 답변 정책 블록. + * - strong (top ≥ 0.5, 두뇌 청크 ≥ 2): 두뇌 근거 기반 — 사용한 문서 제목을 인용하라. + * - moderate: 부분 근거 — 두뇌 사실과 일반 지식 추론을 구분해 서술. + * - weak (top < 0.25 또는 두뇌 청크 0): 답변 첫 줄에 "⚠️ 두뇌 근거 약함" 표기 + 단정 금지. + * 점수는 normalize 된 0~1 — 임계값은 초기치이며 골든셋으로 추후 튜닝 가능. + */ +function buildGroundingBlock(result: { selectedChunks: Array<{ source: string; score: number }> }): string { + const brainChunks = result.selectedChunks.filter((c) => c.source === 'brain-trace' || c.source === 'brain-memory'); + const top = brainChunks.length ? Math.max(...brainChunks.map((c) => c.score || 0)) : 0; + let level: 'strong' | 'moderate' | 'weak'; + if (brainChunks.length === 0 || top < 0.25) level = 'weak'; + else if (top >= 0.5 && brainChunks.length >= 2) level = 'strong'; + else level = 'moderate'; + + const lines = [`[GROUNDING] 이번 질의의 두뇌 근거 강도: ${level === 'strong' ? '강함' : level === 'moderate' ? '보통' : '약함'} (두뇌 청크 ${brainChunks.length}개, 최고 점수 ${top.toFixed(2)})`]; + if (level === 'weak') { + lines.push('→ 답변 첫 줄에 "⚠️ 두뇌 근거 약함 — 일반 지식 기반 추정입니다." 를 표기하고, 단정 대신 "가능성/추정" 표현을 사용하라. 확실하지 않은 세부 수치·고유명사는 만들지 말 것.'); + } else if (level === 'strong') { + lines.push('→ 두뇌 근거를 우선 사용하고, 답변에서 근거로 삼은 문서 제목을 인용하라 (예: "…문서에 따르면").'); + } else { + lines.push('→ 두뇌에서 가져온 사실과 일반 지식 추론을 문장 단위로 구분해 서술하라. 두뇌 근거가 없는 주장에는 단정 표현을 피하라.'); + } + return lines.join('\n'); } diff --git a/src/lib/contextBuilders/selfIdentity.ts b/src/lib/contextBuilders/selfIdentity.ts index 35b1abb..bc927f7 100644 --- a/src/lib/contextBuilders/selfIdentity.ts +++ b/src/lib/contextBuilders/selfIdentity.ts @@ -22,5 +22,6 @@ export function buildSelfIdentityBlock(): string { '- **레슨(경험 기억)**: 작업 경험에서 만들어진 교훈이 `lessons/`에 쌓여 이후 판단에 반영된다.', '- **평가·성장 루프(Self-Evolving OS)**: 골든셋 기반 검색/업무 평가, 성장 리포트, 학습 큐(Need Engine), 지식 노후 점검(Decay), 승인된 학습의 자동 실행(Research Agent)으로 지식의 질을 측정·개선한다.', '따라서 "스스로 성장하는가"라는 질문에는 "모델 가중치는 고정이지만, 시스템으로서 저는 위 메커니즘으로 세션을 넘어 지식·기억을 축적하며 성장합니다"가 정확한 답이다. "나는 학습하지 않는 정적 모델"이라는 일반론으로 답하지 말 것. 자신의 기능·구조에 대한 상세 질문은 두뇌의 "ASTRA 자기 아키텍처" 문서를 근거로 답하라.', + '[출력 위생] 자연스러운 한국어로 쓰고, 한 단어 안에 한글과 영문 알파벳을 섞지 마라("응다", "텍록", "결ently" 같은 깨진 합성 표기 금지). 외래어·기술 용어는 완전한 한글 표기 또는 완전한 영문 단어 중 하나로 일관되게 쓴다.', ].join('\n'); } diff --git a/tests/retrievalEvalCompare.test.ts b/tests/retrievalEvalCompare.test.ts new file mode 100644 index 0000000..fda42d2 --- /dev/null +++ b/tests/retrievalEvalCompare.test.ts @@ -0,0 +1,86 @@ +/** + * 검색 모드 A/B 측정 — 파일 단위(baseline) vs 섹션 청크(Phase 1-가). + * + * 평소 테스트 런에서는 skip 된다 (실제 두뇌 폴더 + 수천 파일 인덱싱이 필요해 + * CI/패키징에 부적합). 수동 실행: + * + * ASTRA_EVAL_BRAIN="E:/Wiki/2nd/10_Wiki/Topics" npx jest tests/retrievalEvalCompare.test.ts --verbose + * + * 골든셋(/.astra/eval/golden.jsonl) 기준 recall@k / MRR 을 두 모드로 측정해 + * 비교표를 콘솔에 출력한다. TF-IDF 경로 기준 (임베딩은 LM 서버 의존이라 제외 — + * 청킹의 효과는 sparse 항과 발췌 품질에 먼저 나타난다). + */ +import * as fs from 'fs'; +import { RetrievalOrchestrator } from '../src/retrieval'; +import { loadGoldenSet, runRetrievalEval, type EvalReport } from '../src/retrieval/evalHarness'; +import { findBrainFiles } from '../src/utils'; +import { getBrainTokenIndex } from '../src/retrieval/brainIndex'; + +const BRAIN = (process.env.ASTRA_EVAL_BRAIN || '').trim(); +const KS = [1, 3, 5]; + +const maybe = BRAIN && fs.existsSync(BRAIN) ? describe : describe.skip; + +maybe('retrieval A/B — file vs chunk', () => { + jest.setTimeout(10 * 60_000); + + test('golden set comparison', async () => { + const { entries, parseErrors } = loadGoldenSet(BRAIN); + expect(entries.length).toBeGreaterThan(0); + + // 인덱스 워밍업 (양 모드 공통 전제) + const allFiles = findBrainFiles(BRAIN); + getBrainTokenIndex(BRAIN, allFiles); + + const brain = { id: 'eval', name: 'EvalBrain', localBrainPath: BRAIN } as any; + const orchestrator = new RetrievalOrchestrator(); + + const run = (chunkMode: boolean): Promise => + runRetrievalEval({ + entries, + ks: KS, + ranker: async (query: string) => + orchestrator + .rankBrainForEval(query, brain, { + limit: Math.max(...KS) + 5, + chunkLevelRetrieval: chunkMode, + chunkTargetChars: 1200, + }) + .map(r => r.relativePath), + }); + + const fileReport = await run(false); + const chunkReport = await run(true); + + const pct = (x: number) => (x * 100).toFixed(1) + '%'; + const lines: string[] = []; + lines.push(''); + lines.push(`══ 검색 A/B (질의 ${entries.length}건, 파싱오류 ${parseErrors}) ══`); + lines.push(`지표 | 파일 단위 | 섹션 청크 | Δ`); + for (const k of KS) { + const a = fileReport.recallAtK[k], b = chunkReport.recallAtK[k]; + lines.push(`recall@${k} | ${pct(a).padStart(7)} | ${pct(b).padStart(7)} | ${(b - a >= 0 ? '+' : '')}${pct(b - a)}`); + } + lines.push(`MRR | ${fileReport.mrr.toFixed(3).padStart(7)} | ${chunkReport.mrr.toFixed(3).padStart(7)} | ${(chunkReport.mrr - fileReport.mrr >= 0 ? '+' : '')}${(chunkReport.mrr - fileReport.mrr).toFixed(3)}`); + // 모드별 win/loss 질의 + const flips: string[] = []; + fileReport.perQuery.forEach((fq, i) => { + const cq = chunkReport.perQuery[i]; + const f = fq.firstHitRank, c = cq.firstHitRank; + if ((f === null) !== (c === null) || (f !== null && c !== null && f !== c)) { + flips.push(` · "${fq.query.slice(0, 38)}" 파일=#${f ?? 'miss'} → 청크=#${c ?? 'miss'}`); + } + }); + if (flips.length) { lines.push('순위 변동:'); lines.push(...flips); } + // miss 진단 (청크 모드) + const misses = chunkReport.perQuery.filter(q => q.firstHitRank === null); + if (misses.length) { + lines.push(`청크 모드 miss ${misses.length}건:`); + for (const m of misses) lines.push(` ✗ "${m.query.slice(0, 38)}" → 상위: ${m.topPaths.slice(0, 3).join(' · ')}`); + } + // eslint-disable-next-line no-console + console.log(lines.join('\n')); + + expect(chunkReport.total).toBe(fileReport.total); + }); +});