wiki: Topic_Blog 신규 문서 일괄 추가 + ASTRA 성장 자산 동기화

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-16 09:55:38 +09:00
parent d77ff5c625
commit e2c5471046
444 changed files with 88916 additions and 231 deletions
@@ -0,0 +1 @@
+{"ts":"2026-06-14T11:00:23.846Z","recall1":0.20833333333333334,"recall3":0.2916666666666667,"mrr":0.2534722222222222,"queries":24}
@@ -0,0 +1,98 @@
+# Astra 검색 평가 리포트
+
+- 두뇌: **Topics**
+- 일시: 2026. 6. 14. 오후 8:00:23
+- 임베딩: (없음 — TF-IDF only)
+- 질의 수: 24
+- 메모: 주간 자동 사이클 (TF-IDF 경로)
+
+## 종합 지표
+
+| 지표 | 값 |
+|---|---|
+| recall@1 | 20.8% |
+| recall@3 | 29.2% |
+| recall@5 | 33.3% |
+| MRR | 0.253 |
+
+> recall@k = 기대 문서가 상위 k개 안에 든 질의 비율. MRR = 첫 정답의 1/순위 평균 (1에 가까울수록 좋음).
+
+## 질의별 상세
+
+| # | 질의 | 첫 정답 순위 | top-k hit | 기대 문서 |
+|---|---|---|---|---|
+| 1 | 긴 문서를 검색용으로 어떻게 잘게 나눠 인덱싱하지? | **miss** | @1✗ @3✗ @5✗ | 문서 청킹 전략.md, 청킹 전략.md |
+| 2 | RecursiveCharacterTextSplitter 같은 재귀적 문자 분할은 어떻게 동작해? | **miss** | @1✗ @3✗ @5✗ | 재귀적 문자 분할.md |
+| 3 | 키워드 검색과 벡터 검색을 함께 쓰는 하이브리드 방식 | **miss** | @1✗ @3✗ @5✗ | 하이브리드 검색.md |
+| 4 | 벡터 데이터베이스는 어떤 기준으로 비교해서 골라야 하나 | **miss** | @1✗ @3✗ @5✗ | 벡터 데이터베이스.md |
+| 5 | 텍스트 임베딩 모델 선택 기준과 종류 | **miss** | @1✗ @3✗ @5✗ | 임베딩 모델.md, 텍스트 임베딩 모델.md |
+| 6 | 검색 결과를 다시 정렬하는 reranker 재랭킹 기법 | #2 | @1✗ @3✓ @5✓ | Re-ranking.md, Reranker.md |
+| 7 | RAG 성능을 RAGAS로 정량 평가하는 지표들 | #3 | @1✗ @3✓ @5✓ | RAGAS 평가 지표.md, RAGAS.md |
+| 8 | LLM을 심판으로 써서 답변 품질을 평가하는 방법 | **miss** | @1✗ @3✗ @5✗ | LLM-as-a-Judge.md |
+| 9 | 검색된 컨텍스트의 정밀도 precision은 어떻게 측정하나 | #4 | @1✗ @3✗ @5✓ | Context Precision.md |
+| 10 | context recall 지표가 의미하는 것 | #1 | @1✓ @3✓ @5✓ | Context Recall.md |
+| 11 | 에이전트가 스스로 검색을 도구로 호출하는 Agentic RAG | #1 | @1✓ @3✓ @5✓ | Agentic RAG.md |
+| 12 | 지식 그래프 기반 GraphRAG 동작 원리 | #1 | @1✓ @3✓ @5✓ | GraphRAG.md |
+| 13 | 검색이 부실할 때 교정하는 Corrective RAG | **miss** | @1✗ @3✗ @5✗ | CRAG.md |
+| 14 | 지식 그래프와 그래프 데이터베이스 개념 | **miss** | @1✗ @3✗ @5✗ | 지식 그래프.md, 그래프 데이터베이스.md |
+| 15 | 문서에서 개체(엔티티)와 관계를 추출하는 방법 | **miss** | @1✗ @3✗ @5✗ | 개체 및 관계 추출.md |
+| 16 | 전처리 단계에서 텍스트 정규화를 어떻게 하나 | **miss** | @1✗ @3✗ @5✗ | 텍스트 정규화.md |
+| 17 | 토크나이저는 어떻게 텍스트를 토큰으로 쪼개나 | **miss** | @1✗ @3✗ @5✗ | 텍스트 토크나이저.md |
+| 18 | RAG 전체 파이프라인 아키텍처와 구성 요소 | **miss** | @1✗ @3✗ @5✗ | RAG 아키텍처 및 파이프라인 기초.md, RAG 아키텍처.md, RAG 파이프라인.md |
+| 19 | 고급 RAG 기법 정리 | **miss** | @1✗ @3✗ @5✗ | Advanced RAG 기법.md |
+| 20 | 데이터 인덱싱과 오케스트레이션 파이프라인 | **miss** | @1✗ @3✗ @5✗ | 데이터 인덱싱 및 오케스트레이션.md |
+| 21 | LangChain으로 RAG 구현하기 | **miss** | @1✗ @3✗ @5✗ | LangChain.md |
+| 22 | LlamaIndex 프레임워크로 문서 검색 | #1 | @1✓ @3✓ @5✓ | LlamaIndex.md |
+| 23 | 데이터셋 버전 관리 DVC | **miss** | @1✗ @3✗ @5✗ | 데이터 버전 관리.md |
+| 24 | LLM 운영 LLMOps 베스트프랙티스 | #1 | @1✓ @3✓ @5✓ | LLMOps.md, MLOps.md |
+
+## Miss 진단 (top 결과가 기대와 어긋난 질의)
+
+- **긴 문서를 검색용으로 어떻게 잘게 나눠 인덱싱하지?**
+  - 기대: 문서 청킹 전략.md, 청킹 전략.md
+  - 실제 상위: Poetic_Blog_Writing/062_긴_문장의_물결감.md · Poetic_Blog_Writing/222_긴_글에서_집중_유지하기.md · Coding/Android_WorkManager_Patterns.md · Coding/Android_Notification_Patterns.md · Topic_Programming/Subsystems/TFIDF_이중언어_스코어링.md
+- **RecursiveCharacterTextSplitter 같은 재귀적 문자 분할은 어떻게 동작해?**
+  - 기대: 재귀적 문자 분할.md
+  - 실제 상위: Topics_Rag/재귀적 문자 분할.md · Programming & Language/재귀적 불변성 (DeepReadonly).md · Coding/Backend_Idempotent_Consumer.md · Coding/Frontend_Container_Queries.md · AI_and_ML/Addiction_Neuroscience.md
+- **키워드 검색과 벡터 검색을 함께 쓰는 하이브리드 방식**
+  - 기대: 하이브리드 검색.md
+  - 실제 상위: Economics & Algorithms/하이브리드 캐주얼(Hybrid-casual)의 하이브리드 수익화 모델.md · AI_and_ML/CSS_구조_설계_방식.md · Topics_Rag/하이브리드 검색.md · Topic_Programming/Engineering_Intelligence/ADR/ADR-0007_하이브리드_검색_결정론_우선.md · Topics_Rag/벡터 데이터베이스.md
+- **벡터 데이터베이스는 어떤 기준으로 비교해서 골라야 하나**
+  - 기대: 벡터 데이터베이스.md
+  - 실제 상위: Topics_Rag/벡터 데이터베이스.md · 사업/2026-05-09_너의-지식-기준으로-아래-프로젝트-분석하고-설계적-기능적-사용자-경험-그리고-편의성까지-고려해서-리뷰-해줘-.md · 사업/ADR-0004-너의-지식-기준으로-아래-프로젝트-분석하고-설계적-기능적-사용자-경험-그리고-편의성까지-고려해서-리뷰-해줘-.md · 사업/ADR-0002-그러면-너는-comfyui를-이용하여-내가-동영상-제작에-사용할-json-파일을-생성하면-생성해줄-수-있어-.md · AI_and_ML/인-이미지 텍스트(In-Image Text).md
+- **텍스트 임베딩 모델 선택 기준과 종류**
+  - 기대: 임베딩 모델.md, 텍스트 임베딩 모델.md
+  - 실제 상위: Topics_Rag/텍스트 임베딩 모델.md · Visual_Effects/Graphics & Performance/BIM 모델 렌더링.md · Topic_Programming/Engineering_Intelligence/디버깅_플레이북.md · Visual_Effects/Graphics & Performance/Revit 모델 렌더링.md · Topics_Rag/임베딩 모델.md
+- **LLM을 심판으로 써서 답변 품질을 평가하는 방법**
+  - 기대: LLM-as-a-Judge.md
+  - 실제 상위: AI_and_ML/LLM.md · AI_and_ML/LLM_Fundamentals.md · AI_and_ML/GPU.md · AI_and_ML/LLM Inference Optimization.md · AI_and_ML/LLM_Large_Language_Model.md
+- **검색이 부실할 때 교정하는 Corrective RAG**
+  - 기대: CRAG.md
+  - 실제 상위: Topics_Rag/Agentic RAG.md · Coding/AI_RAG_Production.md · Topics_Rag/RAG 아키텍처 및 파이프라인 기초.md · Topic_Programming/Engineering_Intelligence/AI_Training/AITRAIN_RAG_검색.md · Topics_Rag/Advanced RAG 기법.md
+- **지식 그래프와 그래프 데이터베이스 개념**
+  - 기대: 지식 그래프.md, 그래프 데이터베이스.md
+  - 실제 상위: Topics_Rag/개체 및 관계 추출.md · Topics_Rag/그래프 데이터베이스.md · Topic_Programming/Pattern_Catalog/AI/RAG_Pattern.md · Topics_Rag/지식 그래프.md · Topic_Programming/Pattern_Catalog/Mobile/Navigation_Pattern.md
+- **문서에서 개체(엔티티)와 관계를 추출하는 방법**
+  - 기대: 개체 및 관계 추출.md
+  - 실제 상위: Topics_Rag/개체 및 관계 추출.md · Architecture/Entity_엔티티.md · Visual_Effects/Graphics & Performance/RDF와 OWL.md · AI_and_ML/오픈소스 이미지 모델 미세 조정 및 배포.md · DevOps_and_Security/eslint-config-prettier.md
+- **전처리 단계에서 텍스트 정규화를 어떻게 하나**
+  - 기대: 텍스트 정규화.md
+  - 실제 상위: Topics_Rag/텍스트 토크나이저.md · Topics_Rag/텍스트 정규화.md · Topics_Rag/텍스트 임베딩 모델.md · Coding/Python/039_csv와_구조적_텍스트_처리.md · AI_and_ML/텍스트 렌더링(Text Rendering).md
+- **토크나이저는 어떻게 텍스트를 토큰으로 쪼개나**
+  - 기대: 텍스트 토크나이저.md
+  - 실제 상위: Topics_Rag/텍스트 토크나이저.md · Topic_Programming/Engineering_Intelligence/안티패턴_카탈로그.md · Topics_Rag/청킹 전략.md · Topics_Rag/LLM.md · Topics_Rag/텍스트 임베딩 모델.md
+- **RAG 전체 파이프라인 아키텍처와 구성 요소**
+  - 기대: RAG 아키텍처 및 파이프라인 기초.md, RAG 아키텍처.md, RAG 파이프라인.md
+  - 실제 상위: Topics_Rag/RAG 아키텍처 및 파이프라인 기초.md · Coding/Python/198_Python_RAG_파이프라인_구조.md · Topics_Rag/Agentic RAG.md · Coding/AI_RAG_Production.md · Topic_Programming/Engineering_Intelligence/AI_Training/AITRAIN_RAG_검색.md
+- **고급 RAG 기법 정리**
+  - 기대: Advanced RAG 기법.md
+  - 실제 상위: Topics_Rag/Advanced RAG 기법.md · Topics_Rag/Agentic RAG.md · Coding/AI_RAG_Production.md · Topics_Rag/RAG 아키텍처 및 파이프라인 기초.md · Topic_Programming/Engineering_Intelligence/AI_Training/AITRAIN_RAG_검색.md
+- **데이터 인덱싱과 오케스트레이션 파이프라인**
+  - 기대: 데이터 인덱싱 및 오케스트레이션.md
+  - 실제 상위: Topics_Rag/데이터 인덱싱 및 오케스트레이션.md · AI_and_ML/Warno  데이터 기반 설계.md · Programming & Language/데이터 파싱 (Data Parsing).md · Programming & Language/데이터 파싱(Data Parsing).md · Coding/Python/188_Python_데이터_파이프라인_설계.md
+- **LangChain으로 RAG 구현하기**
+  - 기대: LangChain.md
+  - 실제 상위: Coding/AI_Agent_Sandbox_E2B.md · Topics_Rag/Agentic RAG.md · Coding/AI_RAG_Production.md · AI_and_ML/LlamaIndex.md · Topics_Rag/RAG 아키텍처 및 파이프라인 기초.md
+- **데이터셋 버전 관리 DVC**
+  - 기대: 데이터 버전 관리.md
+  - 실제 상위: Coding/MLOps_Model_Registry.md · AI_and_ML/Data Cleaning Algorithms.md · Topics_Rag/데이터 버전 관리.md · DevOps_and_Security/버전_관리_시스템_VCS.md · Poetic_Blog_Writing/356_마지막_한_문장_버전_비교.md
				`@@ -0,0 +1 @@`
				`{"ts":"2026-06-14T11:00:23.846Z","recall1":0.20833333333333334,"recall3":0.2916666666666667,"mrr":0.2534722222222222,"queries":24}`