feat: v2.2.83 → v2.2.91 — info prompt 강화 + 사용자 노출 설정 + 답변 포맷 정리

[v2.2.83] /youtube info 프롬프트 강화 - 비유 방향 보존 룰 (Hugging Face=자료실 같은 짝 뒤집기 방지) - 신뢰도 라벨 4종 ([근거 명시] / [화자 주장] / [가정] / [정리자 추론]) - 타임스탬프 fail 룰 (인용·구간 요약 모두 mm:ss 필수) - "정리자 노트" 별도 섹션으로 추론 격리 [v2.2.85] polishPersona self-check 5가지 - 정리·리뷰·요약 답변 출력 직전 머릿속 체크: (1) 사실 오류 (2) 없는 내용 추가 (3) 뉘앙스 유지 (4) 중요도 비례 (5) 중복 제거 [v2.2.86] chunkedSwitchTokens 절대 임계값 게이트 - 입력 < 50k 토큰이면 키워드·길이 트리거 무시하고 단일 호출 - 큰 컨텍스트 모델(131k+)에서 chunked 과잉 발동 방지 [v2.2.87] MAX_SECTIONS 5→3 cap - 총 호출 7회 → 5회 (outline + 3 section + polish) - 사용자 피드백 "6+회는 과하다" [v2.2.88] 이모지 사용 금지 룰 - polishPersona / directPersona / sectionPersona 모두 적용 - 사용자 피드백 "이모지는 시각 노이즈" [v2.2.89] 사용자 노출 설정 두 항목 - chunkedMaxSections config 신규 (default 3, 1~10 clamp) - MAX_SECTIONS_HARD_CEILING (10) 으로 안전망 격상 - Astra Settings 패널 "고급" 섹션에 두 슬라이더 노출 [v2.2.90] 가이드 문구 단순화 - "작은 모델은 낮추라" 문구 빼고 일관되게 50000 권장으로 [v2.2.91] 답변 포맷 가독성 fix - persona 의 "TL;DR" 표현 전부 "한 줄 요약" 으로 단일화 - stripMarkdownFormatting 에 헤더 후 빈 줄 강제 삽입 (marked.parse 가 라벨·본문을 별도 단락으로 인식 → 시각 분리) [테스트] 400/400 통과 (resilience_stress + chunked flow + MAX_SECTIONS cap 등) Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
2026-05-24 14:12:56 +09:00
parent ded3eea7ce
commit 4153f640c2
22 changed files with 425 additions and 204 deletions
@@ -147,6 +147,27 @@ export interface IAgentConfig {
     * 기본 0.30 — 작은 모델이 30% 이상을 input으로 먹기 시작하면 한 번에 끝내려는 시도가 위험.
     */
    workflowAutoCtxFractionThreshold: number;
+    /**
+     * 절대 토큰 임계값 — 입력 prompt 가 이 값 *미만* 이면 Multi-Agent 파이프라인 발동
+     * 안 함 (키워드·길이 트리거 무시). 모델이 단일 호출로 처리.
+     *
+     * 의도: 사용자가 "요약/리뷰" 같은 키워드만 써도 chunked 가 강제로 발동해
+     * LLM 여러 번 호출되며 답변이 느려지는 문제 해결. 입력이 모델 윈도우 대비
+     * 충분히 작으면 한 번에 답하는 게 합리적.
+     *
+     * 기본 50000 — 대부분의 사용 환경에 적합. 매우 작은 컨텍스트 모델로 큰 입력을
+     * 자주 다룬다면 OOM 방지 차원에서 사용자가 직접 낮출 수 있음 (Astra Settings 패널).
+     */
+    chunkedSwitchTokens: number;
+    /**
+     * Chunked 파이프라인 진입 시 outline 이 만들 수 있는 *최대 섹션 수*.
+     * 실제 LLM 호출 횟수 = 1(outline) + N(section) + 1(polish) = 2 + N.
+     * 따라서 이 값이 3이면 최대 5회, 4이면 최대 6회.
+     *
+     * 작을수록 답변 속도 빠름, 클수록 답변이 더 세분화. 기본 3 — 사용자
+     * 피드백("6회 이상은 과하다") 반영. 1~10 범위 clamp.
+     */
+    chunkedMaxSections: number;
    // ─── Stream 표시 ───
    /**
     * 모델 토큰을 받는 즉시 채팅 버블에 흘려보낼지 여부.
@@ -301,6 +322,8 @@ export function getConfig(): IAgentConfig {
        workflowAutoCtxFractionThreshold: Math.max(0.05, Math.min(0.95,
            cfg.get<number>('workflow.autoCtxFractionThreshold', 0.30)
        )),
+        chunkedSwitchTokens: Math.max(1000, cfg.get<number>('chunkedSwitchTokens', 50000)),
+        chunkedMaxSections: Math.max(1, Math.min(10, cfg.get<number>('chunkedMaxSections', 3))),
        liveStreamTokens: cfg.get<boolean>('liveStreamTokens', true),
        outputFormat: ((): 'plain' | 'markdown' => {
            const v = (cfg.get<string>('outputFormat', 'plain') || 'plain').trim().toLowerCase();