Files
2nd/10_Wiki/Topics/Digests/Topic_Programming--Subsystems.md
T
koriweb 8957890d13 위키 동기화 2026-06-19: 보안 트러블슈팅 노트·회의록·lessons·Digests + ASTRA 성장 산출물
- 00_Raw: ASTRA 보안 가이드 3종(SSRF/셸 명령/파일 경로 경계), 회의록 p/q/r 추가
- Topics: Digests 5종, lessons 4종, 메모리 에피소드/장기기억 갱신
- .astra: growth(decay/regression/weakness)·eval(corrections/report) 학습 산출물 갱신

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-19 18:29:23 +09:00

3.8 KiB

type, title, generated_at, sources
type title generated_at sources
digest 소화 노트: Topic_Programming/Subsystems 2026-06-18T18:01:38.365Z
TFIDF_이중언어_스코어링
LLM_프로바이더_추상화
RAG_검색_파이프라인
Agent_오케스트레이터_분해

소화 노트: Topic_Programming/Subsystems

⚙️ 자동 생성 (sleep-time 사전 소화) — 원문이 항상 우선입니다. 소스가 바뀌면 자동 재생성되며, 이 파일은 삭제해도 안전합니다.

예상 질문과 답

  • Q: ConnectAI의 검색 엔진은 어떤 방식으로 작동하나요? — A: 임베딩 엔진 없이도 가벼운 검색이 가능하도록 '좋은 토크나이저'와 'TF-IDF 가중치'를 사용합니다. 한국어/영어 혼합 토크나이저, 불용어 제거, 동의어 확장, 제목 가중치(3배) 등을 적용하여 단순 매칭 이상의 점수를 산출합니다. [TF-IDF 이중언어 스코어링]
  • Q: 다양한 LLM 공급자(Provider)를 하나의 코드로 관리하는 방법은 무엇인가요? — A: '어댑터 패턴'을 사용합니다. Model ID의 접두사(prefix)로 공급자를 결정하는 라우팅 방식을 사용하며, 각 공급자의 API 차이(인증, 바이트 형식 등)는 어댑터가 흡수하고 출력은 OpenAI 호환 SSE 포맷으로 정규화하여 통일합니다. [LLM 프로바이더 추상화]
  • Q: RAG 파이프라인에서 검색된 결과의 우선순위는 어떻게 결정되나요? — A: 소스별로 점수를 0~1로 정규화한 후 소스 우선순위 가중치를 곱합니다. 이후 Actionability(작업 상태 신호)와 Hierarchical(질의/문서 매칭) 지표로 재가중(Re-rank)하여 최종 선택합니다. [RAG 검색 파이프라인]
  • Q: 에이전트 오케스트레이터 설계 시 'God-class' 문제를 어떻게 해결했나요? — A: 거대한 하나의 클래스가 모든 것을 처리하는 대신, 전체 흐름의 골격만 유지하고 세부 구현은 handlePrompt, llm, actions 등의 모듈로 추출하여 위임하는 구조를 가집로 유지보수성을 높였습니다. [Agent 오케스트레이터 분해]

핵심 사실

  • TF-IDF 스코어링: 한글-영문 경계 분리 정규식을 사용하며, 제목 일치 시 본문보다 3배 높은 가중치를 부여합니다. [TF-IDF 이중언어 스코어링]
  • LLM 라우팅: anthropic:, gemini: 등 모델 ID의 접두사(prefix)를 통해 공급자를 결정하며, 로컬 엔진 사용 시에는 접두사가 없는 형태를 따릅니다. [LLM 프로바이더 추상화]
  • RAG 검색 단계: 질의 계획 \rightarrow 다중 소스 병렬 검색 \rightarrow 점수 정규화 및 재가중 \rightarrow 토큰 예산 내 선택 순으로 진행됩니다. [RAG 검색 파이프라인]
  • 멀티에이전트 전략: 단순한 병렬 실행보다 자원 제약에 맞춘 '순차 실행'과 단일 작성자가 여러 역할을 수행하는 'ChunkedWriter' 방식이 더 견고합니다. [Agent 오케스트레이터 분해]

문서 간 연결

  • 공통 주제: 모든 문서는 ConnectAI 시스템의 효율적인 구조 설계(검색, LLM 호출, 에이전트 실행)를 위한 아키텍처 패턴(어댑터, 오케스트레이터 분해, 모듈화)을 다루고 있습니다.
  • 기술적 연결:
    • TF-IDF 스코어링의 토크나이저 기술은 RAG 검색 파이프라인의 첫 단계인 Query Planning과 직접적으로 연결됩니다.
    • LLM 프로바이더 추상화를 통해 정규화된 출력(SSE)은 Agent 오케스트레이터가 사용자에게 진행 상황을 전달하는 메시지 프로토콜(streamChunk 등)의 기반이 됩니다.
    • RAG 파이프라인에서 사용하는 섹션 청킹 기술은 TF-IDF 스코어링의 정밀도를 높이는 요소로 작용합니다.