Files
2nd/10_Wiki/Topics/.astra/eval/golden.jsonl
T
koriweb 9107796cbe chore(astra): 성장 자산(.astra/eval 골든셋) git 백업 라인에 추가
ASTRA 두뇌(10_Wiki/Topics)의 .astra/ 가 ignore 규칙(루트 .astra/ + 중첩 *)에
막혀 RAG 평가 골든셋(eval/golden.jsonl, tasks/*.golden.jsonl)과 향후
growth 리포트가 백업되지 않던 문제 수정.

- 루트 .gitignore: !10_Wiki/Topics/.astra/ 재포함 (다른 .astra 는 계속 제외)
- 중첩 .astra/.gitignore: deny-all(*) → 캐시만 제외(brain-index.json 27MB,
  cache/, *.tmp)로 전환 — 성장 자산은 추적

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-11 14:14:04 +09:00

28 lines
3.1 KiB
JSON

// Astra 검색 평가 골든셋 (Topics_Rag 기반 자동 시드). 한 줄당 JSON 1개. `//`/빈 줄은 무시.
// query: 실제로 던질 자연어 질문. expected: 그 질문에 떠야 하는 문서(파일명 매칭).
// 유사 문서 쌍은 둘 다 정답 처리(하나라도 top-k 에 들면 hit). 자유롭게 추가/수정하세요.
{"query": "긴 문서를 검색용으로 어떻게 잘게 나눠 인덱싱하지?", "expected": ["문서 청킹 전략.md", "청킹 전략.md"]}
{"query": "RecursiveCharacterTextSplitter 같은 재귀적 문자 분할은 어떻게 동작해?", "expected": ["재귀적 문자 분할.md"]}
{"query": "키워드 검색과 벡터 검색을 함께 쓰는 하이브리드 방식", "expected": ["하이브리드 검색.md"]}
{"query": "벡터 데이터베이스는 어떤 기준으로 비교해서 골라야 하나", "expected": ["벡터 데이터베이스.md"]}
{"query": "텍스트 임베딩 모델 선택 기준과 종류", "expected": ["임베딩 모델.md", "텍스트 임베딩 모델.md"]}
{"query": "검색 결과를 다시 정렬하는 reranker 재랭킹 기법", "expected": ["Re-ranking.md", "Reranker.md"]}
{"query": "RAG 성능을 RAGAS로 정량 평가하는 지표들", "expected": ["RAGAS 평가 지표.md", "RAGAS.md"]}
{"query": "LLM을 심판으로 써서 답변 품질을 평가하는 방법", "expected": ["LLM-as-a-Judge.md"]}
{"query": "검색된 컨텍스트의 정밀도 precision은 어떻게 측정하나", "expected": ["Context Precision.md"]}
{"query": "context recall 지표가 의미하는 것", "expected": ["Context Recall.md"]}
{"query": "에이전트가 스스로 검색을 도구로 호출하는 Agentic RAG", "expected": ["Agentic RAG.md"]}
{"query": "지식 그래프 기반 GraphRAG 동작 원리", "expected": ["GraphRAG.md"]}
{"query": "검색이 부실할 때 교정하는 Corrective RAG", "expected": ["CRAG.md"]}
{"query": "지식 그래프와 그래프 데이터베이스 개념", "expected": ["지식 그래프.md", "그래프 데이터베이스.md"]}
{"query": "문서에서 개체(엔티티)와 관계를 추출하는 방법", "expected": ["개체 및 관계 추출.md"]}
{"query": "전처리 단계에서 텍스트 정규화를 어떻게 하나", "expected": ["텍스트 정규화.md"]}
{"query": "토크나이저는 어떻게 텍스트를 토큰으로 쪼개나", "expected": ["텍스트 토크나이저.md"]}
{"query": "RAG 전체 파이프라인 아키텍처와 구성 요소", "expected": ["RAG 아키텍처 및 파이프라인 기초.md", "RAG 아키텍처.md", "RAG 파이프라인.md"]}
{"query": "고급 RAG 기법 정리", "expected": ["Advanced RAG 기법.md"]}
{"query": "데이터 인덱싱과 오케스트레이션 파이프라인", "expected": ["데이터 인덱싱 및 오케스트레이션.md"]}
{"query": "LangChain으로 RAG 구현하기", "expected": ["LangChain.md"]}
{"query": "LlamaIndex 프레임워크로 문서 검색", "expected": ["LlamaIndex.md"]}
{"query": "데이터셋 버전 관리 DVC", "expected": ["데이터 버전 관리.md"]}
{"query": "LLM 운영 LLMOps 베스트프랙티스", "expected": ["LLMOps.md", "MLOps.md"]}