feat(wiki): 코드 그라운딩 23문서 + MOC 학습지도 39개

- 코드 그라운딩: 기술 주제 문서의 '적용 사례'에 실제 레포 구현 위치 (file:line)+커밋 자동 주입 (예: 문서 청킹 전략→connectai/src/retrieval/chunker.ts). 멱등 마커(CODE-GROUNDING)로 재실행 시 갱신. - MOC: 39개 클러스터 폴더에 _MOC.md 학습지도 생성(진입점+통찰 주석). 도구: Datacollect/scripts/{code_grounding,moc_generator}.mjs Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-08 18:56:11 +09:00
parent af11d666d2
commit 95cd8bb891
101 changed files with 11639 additions and 5 deletions
@@ -59,6 +59,15 @@ Re-ranking은 1차 검색(Recall)으로 확보된 다수의 후보 문서들을
 - **세법 RAG 최적화:** 중복 조문이 많은 세법 데이터에서 MMR(다양성)과 Re-ranking을 조합하여 정답 배치 순서를 교정한 사례가 언급됨 [S32, S37].
 - **Ensemble 구성:** 벡터 검색(k=4)과 BM25(k=4) 결과를 RRF로 합친 후, 필요 시 Re-ranker를 통해 최종 문맥을 선별하는 구조가 권장됨 [S34, S182].

+
+<!-- CODE-GROUNDING:START -->
+### 🔎 코드베이스 근거 (자동 추출 — E:\Wiki 레포)
+**실제 구현/사용 위치:**
+- `connectai/src/retrieval/semanticRerank.ts:2` — * LLM Semantic Re-ranking — TF-IDF / 임베딩이 놓치는 *의도* 매치를 작은 LLM 호출
+
+_자동 생성: code_grounding.mjs · 재실행 시 갱신됨_
+<!-- CODE-GROUNDING:END -->
+
 ## ✅ 검증 상태 및 신뢰도
 - **상태:** draft
 - **검증 단계:** conceptual
@@ -0,0 +1,55 @@
+---
+id: moc-topics_rag
+title: "Topics_Rag — 학습 지도 (MOC)"
+category: "MOC"
+status: "active"
+type: "map-of-content"
+tags: ["MOC", "Topics_Rag"]
+updated_at: 2026-06-08
+---
+
+# 🗺️ Topics_Rag — 학습 지도 (MOC)
+
+> 이 클러스터의 **36개 문서**에 대한 진입점과 학습 순서. 자동 생성(moc_generator.mjs) — 재실행 시 갱신.
+
+## 🚀 여기서 시작 (Start here)
+- [[RAG 아키텍처 및 파이프라인 기초]] — RAG는 LLM의 정적 지식 한계와 환각을 극복하기 위해 외부 지식 베이스를 검색(Retrieval)하여 생성(Generation) 과정에 실시간으로 결합하는 고정밀 지식 보강 프레임워크이다 [S9, S108, S154].
+
+## 📚 전체 문서 (Topics)
+- [[개체 및 관계 추출]] — 개체 및 관계 추출은 비정형 텍스트 내에 숨겨진 지식의 원자(Entity)와 연결고리(Relationship)를 식별하여, 파편화된 정보를 상호 연결된 지식 그래프 구조로 전환함으로써 RAG의 복합 추론 능력을 극대화하는 핵심 공정이다 [S276, S
+- [[그래프 데이터베이스]] — 데이터를 단순한 텍스트 조각이 아닌 **개체(Entity)와 관계(Relationship)의 네트워크**로 구조화하여, 기존 벡터 검색이 놓치기 쉬운 복잡한 다중 도약(Multi-hop) 지식 연결을 정밀하게 복원하는 차세대 RAG 검색 인프라의 핵심
+- [[데이터 버전 관리]] — 데이터 버전 관리는 임베딩 모델, 벡터 인덱스, 프롬프트를 하나의 단위로 묶어 관리함으로써 시스템 변경에 따른 검색 불일치를 방지하고 결과의 재현성과 추적성을 보장하는 신뢰 기반 운영 기술이다 [S125, S325].
+- [[데이터 인덱싱 및 오케스트레이션]] — 데이터 인덱싱은 비정형 지식을 기계가 검색 가능한 최적의 구조로 전처리하여 저장하는 '기반 공정'이며, 오케스트레이션은 사용자 질의부터 최종 답변까지의 복잡한 추론 흐름을 동적으로 제어하는 '통합 관제' 시스템이다 [S13, S259, S300].
+- [[문서 청킹 전략]] — 청킹은 검색의 정밀도(Precision)와 문맥의 풍부함(Context) 사이의 트레이드오프를 최적화하여 RAG 시스템의 답변 품질을 결정하는 핵심 전처리 공정이다 [S17, S122, S168].
+- [[벡터 데이터베이스]] — 벡터 데이터베이스는 텍스트의 언어적 의미를 고차원 기하학적 좌표로 투영하여 저장하고, 단순 키워드 매칭을 넘어 맥락 기반의 유사도 검색(Similarity Search)을 수행하는 RAG 시스템의 핵심 지식 저장소이다 [S13, S116, S183].
+- [[웹벤치마크 caliverse.io 2026-06-08]]
+- [[웹벤치마크 www.caliverse.io 2026-06-04]]
+- [[임베딩 모델]] — 임베딩 모델은 비정형 데이터를 고차원 수학적 벡터로 치환하여 지식의 의미적 맥락을 기하학적 공간에 정렬함으로써, LLM이 외부 지식을 정확히 탐색할 수 있게 돕는 RAG 파이프라인의 핵심 지능 엔진이다 [1-3].
+- [[재귀적 문자 분할]] — 텍스트의 구조적 위계를 존중하는 구분자 세트를 순차 적용하여, 청크 크기 제약을 준수하면서도 문맥적 무결성을 극대화하는 RAG 인프라의 표준 텍스트 분할 알고리즘 [1, 2].
+- [[지식 그래프]] — 지식 그래프는 파편화된 비정형 데이터를 상호 연결된 개체(Node)와 관계(Edge)의 망으로 구조화하여, 단순 유사도 검색을 넘어 데이터 전체에 대한 거시적 통찰과 복합적인 맥락 추론을 가능하게 하는 차세대 지식 표상 체계이다 [S276, S277]
+- [[청킹 전략]] — 청킹은 단순히 텍스트를 자르는 과정이 아니라, 검색의 정밀도(Precision)와 문맥의 일관성(Coherence) 사이의 최적 균형을 찾아 LLM에 전달할 정보의 밀도를 결정하는 RAG 파이프라인의 핵심 공정이다.[1-3]
+- [[텍스트 임베딩 모델]] — 텍스트 임베딩은 자연어의 비정형 의미 구조를 고차원 수치 벡터로 투영함으로써, 인간의 언어적 맥락을 기계가 계산 가능한 기하학적 유사도로 변환하는 RAG의 핵심 교량이다 [S23, S112, S183].
+- [[텍스트 정규화]] — 텍스트 정규화는 파싱된 비정형 데이터에서 노이즈를 제거하고 형식적 일관성을 부여하여, 임베딩 벡터의 선명도를 높이고 검색 및 생성 단계의 품질을 보장하는 데이터 전처리의 최종 관문이다 [S344, S396].
+- [[텍스트 토크나이저]] — 토크나이저는 자연어의 비정형 의미를 기계가 연산 가능한 수치적 단위(Token)로 분해하는 첫 번째 관문이며, 모델의 컨텍스트 제한 조건과 언어적 특성(형태소 등)을 정밀하게 정렬(Alignment)해야만 정보 손실 없는 검색과 생성이 가능하다 [S1
+- [[하이브리드 검색]] — 하이브리드 검색은 의미 기반의 Dense Search와 키워드 기반의 Sparse Search를 결합하여, 벡터 유사도가 놓치기 쉬운 고유명사·숫자의 정밀도(Precision)와 문맥적 재현율(Recall)을 동시에 확보하는 RAG의 필수 검색 전략이
+- [[Advanced RAG 기법]] — Advanced RAG는 단순한 '검색 후 생성'을 넘어, 질의 변환(Query Transformation)과 재순위화(Re-ranking) 등 정교한 전/후처리 파이프라인을 도입하여 검색의 재현율(Recall)과 답변의 정밀도(Precision)를 
+- [[Agentic RAG]] — Agentic RAG는 고정된 파이프라인 대신 AI 에이전트가 사용자 질의에 따라 검색 필요성, 도구 선택, 결과 검증을 스스로 판단하여 실행하는 '자율적 검색 전략' 프레임워크이다 [S280, S293].
+- [[Context Precision]] — 검색된 결과 중 실제 유용한 정보의 비율과 순위를 평가하여, 생성 모델이 가장 정확한 근거를 최상단에서 참조할 수 있도록 보장하는 RAG 검색 품질의 핵심 지표 [1-3]
+- [[Context Recall]] — Context Recall은 지식 베이스 내에 존재하는 정답 관련 정보를 누락 없이 얼마나 완벽하게 검색해냈는지를 측정하는 검색 성능의 '망라성' 지표이다 [1, 2].
+- [[CRAG]] — CRAG는 검색된 문서의 품질을 실시간으로 자가 진단하고, 결과가 부정확할 경우 웹 검색 등 대체 수단을 동원해 답변의 신뢰성을 강제로 교정하는 '검증 중심 RAG' 아키텍처이다 [S15, S16].
+- [[DevOps]] — DevOps는 소프트웨어 개발(Dev)과 운영(Ops)의 경계를 허물고 **Git 버전 제어 및 애자일(Agile) 메서드**를 통해 시스템의 **연속적인 통합, 배포, 그리고 관리**를 자동화하는 협업 체계이다 [S256, S265].
+- [[GraphRAG]] — GraphRAG는 문서를 조각난 벡터가 아닌 상호 연결된 지식 그래프로 구조화하여, 파편화된 정보 간의 연결 관계 추론과 데이터셋 전체에 대한 거시적 요약을 가능하게 하는 차세대 지식 통합 프레임워크이다 [S276, S277].
+- [[LangChain]] — 다양한 AI 구성 요소를 모듈식으로 조립하여 복잡한 다단계 워크플로우와 자율적 에이전틱 AI 애플리케이션을 구축할 수 있는 범용 오케스트레이션 프레임워크 [1-4].
+- [[LlamaIndex]] — 방대한 외부 데이터를 LLM과 연결하기 위해 데이터 수집, 계층적 인덱싱 및 검색 최적화에 모든 역량을 집중한 지식 지향적 RAG 전문 프레임워크 [1-3].
+- [[LLM]] — 고정된 파라미터 지식의 한계를 넘어, 실시간으로 검색된 외부 컨텍스트를 합성하여 신뢰할 수 있는 응답을 생성하는 RAG 시스템의 핵심 생성 엔진 [1, 2].
+- [[LLM-as-a-Judge]] — LLM-as-a-Judge는 상위 성능의 모델이 다른 모델의 응답을 문맥 적합성과 논리적 일관성에 따라 정량적으로 평가하게 함으로써, 인적 검수의 확장성 한계를 극복하고 대규모 서비스 로그를 자동 분석하는 LLMOps의 핵심 지능형 평가 메커니즘이다 
+- [[LLMOps]] — LLMOps는 언어 모델을 블랙박스로 두지 않고, 데이터 기반의 정량적 평가와 실시간 모니터링을 통해 AI 시스템을 '개발 대상'에서 '지속 가능한 운영 대상'으로 전환하는 관리 체계이다 [S217].
+- [[MLOps]] — MLOps는 머신러닝 모델을 단순한 개발 대상이 아닌 데이터 기반의 지속적 운영 대상으로 관리하며, 파이프라인 자동화와 버전 제어를 통해 실험의 재현성과 시스템 신뢰성을 확보하는 체계이다 [S217, S340].
+- [[RAG 아키텍처]] — RAG 아키텍처는 대규모 언어 모델(LLM)의 매개변수를 수정하지 않고도 외부 지식 베이스를 비매개변수적 메모리로 활용하여 할루시네이션을 억제하고 정보의 최신성과 신뢰성을 확보하는 핵심 기술 패러다임이다 [1-3].
+- [[RAG 파이프라인]] — RAG 파이프라인은 대규모 언어 모델(LLM)의 정적인 지식 제한을 극복하기 위해 외부 데이터 소스로부터 실시간으로 지식을 검색하고 이를 생성 과정에 주입하여 사실에 기반한(Grounded) 응답을 도출하는 핵심 워크플로우다 [1-3].
+- [[RAGAS]] — RAGAS는 "LLM-as-a-Judge" 기법을 통해 RAG 파이프라인의 검색 품질과 생성 신뢰성을 데이터 기반으로 정량화하고 최적화하는 전용 평가 프레임워크이다 [1, 2].
+- [[RAGAS 평가 지표]] — RAGAS는 RAG 시스템을 'RAG Triad'라 불리는 세 가지 핵심 축(Context, Answer, Query)으로 분해하여, 검색의 정밀도와 생성의 근거성을 데이터 기반으로 정량 측정하는 진단형 평가 프레임워크이다 [S217, S226].
+- [[Re-ranking]] — Re-ranking은 1차 검색(Recall)으로 확보된 다수의 후보 문서들을 질의와의 실제 의미적 관련성에 따라 재정렬함으로써, 정답 정보가 LLM의 컨텍스트 윈도우 상단에 배치되도록 보장하는 정밀도(Precision) 최적화 공정이다 [S12, S
+- [[Reranker]] — 초단계 벡터 검색에서 확보한 후보 문서군을 크로스-인코더(Cross-Encoder)로 재평가하여 검색 정밀도(Context Precision)를 개선하고 생성 모델의 답변 정확도를 극대화하는 RAG 파이프라인의 핵심 최적화 컴포넌트 [1-3].
+
+_36 docs · 자동 생성 2026-06-08_
@@ -0,0 +1,18 @@
+# Topics_Rag Chronicle Records
+
+## Project
+- ID: topics-rag
+- Root: E:\Wiki\2nd\10_Wiki\Topics\Topics_Rag
+- Record root: E:\Wiki\2nd\10_Wiki\Topics\Topics_Rag\docs\records\Topics_Rag
+- Detail level: standard
+
+## Purpose
+Auto-created by Project Architecture activation.
+
+## Folders
+- `planning/`
+- `discussions/`
+- `decisions/`
+- `development/`
+- `bugs/`
+- `retrospectives/`
@@ -0,0 +1,11 @@
+{
+  "projectId": "topics-rag",
+  "projectName": "Topics_Rag",
+  "projectRoot": "E:\\Wiki\\2nd\\10_Wiki\\Topics\\Topics_Rag",
+  "recordRoot": "E:\\Wiki\\2nd\\10_Wiki\\Topics\\Topics_Rag\\docs\\records\\Topics_Rag",
+  "description": "Auto-created by Project Architecture activation.",
+  "corePurpose": "",
+  "detailLevel": "standard",
+  "createdAt": "2026-06-08T08:29:09.889Z",
+  "updatedAt": "2026-06-08T08:36:17.455Z"
+}
@@ -0,0 +1,19 @@
+# ADR: E:\Wiki\2nd\10_Wiki\Topics\Topics_Rag 여기 아래에 잇는 내용들이 쓸모가 있는것인지 확인해
+
+## Status
+accepted
+
+## Context
+E:\Wiki\2nd\10_Wiki\Topics\Topics_Rag 여기 아래에 잇는 내용들이 쓸모가 있는것인지 확인해
+
+## Decision
+제공해주신 경로(`E:\Wiki\2nd\10_Wiki\Topics\Topics_Rag`)의 파일들을 검토한 결과, 이 내용들은 RAG(Retrieated-Augmented Generation) 시스템을 설계하고 구축하려는 엔지니어에게 매우 가치 있는 전문 지식입니다. 단순한 이론 나열이 아니라, 실제 구현 단계에서 마주치는 기술적 난제(Chunking 전략, 평가 지표, 벡터 DB 선택, Agentic RAG 등)를 구체적으로 다루고 있어 '실전형 기술 가이드'로서의 역할을 충분히 하고 있습니다. 구체적인 판단 근거는 다음과 같습니다. --- 1. 핵심 가치 (Why it is useful) - 기술적 깊이와 범위: Naive RAG부터 최신 트렌드인 Agentic RGH, GraphRAG까지 포함되어 있어, 기초부터 심화 아키텍처까지 단계별 학습이 가능합니다. - 실무 중심의 의사결정 도구: `Long context vs RAG` 비교나 `벡터 데이터베이스 비교`와 같이, 엔지니어...
+
+## Reason
+Captured automatically because the conversation contained decision-oriented language.
+
+## Alternatives
+Not captured yet.
+
+## Consequences
+- Future prompts should treat this as project context unless the user changes direction.
@@ -0,0 +1,19 @@
+# ADR: E:\Wiki\2nd\10_Wiki\Topics\Topics_Rag 여기 아래에 잇는 내용들이 쓸모가 있는것인지 확인해
+
+## Status
+accepted
+
+## Context
+E:\Wiki\2nd\10_Wiki\Topics\Topics_Rag 여기 아래에 잇는 내용들이 쓸모가 있는것인지 확인해
+
+## Decision
+이 폴더의 내용은 RAG(Retrieval-Augmented Generation) 시스템을 설계하고 구축하려는 엔지니어에게 매우 가치 있는 전문 지식입니다. 단순한 이론 나열이 아니라, 실제 구현 단계에서 마주치는 기술적 난제(Chunking 전략, 평가 지표, 벡터 DB 선택, Agentic RAG 등)를 구체적으로 다루고 있어 '실전형 기술 가이드'로서의 역할을 충분히 하고 있습니다. 구체적인 판단 근거는 다음과 같습니다. --- 1. 핵심 가치 (Why it is useful) - 기술적 깊이와 범위: Naive RAG부터 최신 트래드인 Agentic RAG, GraphRAG까지 포함되어 있어, 기초부터 심화 아키텍처까지 단계별 학습이 가능합니다. - 실무 중심의 의사결정 도구: `Long context vs RAG` 비교나 `벡터 데이터베이스 비교`와 같이, 엔지니어가 프로젝트 상황에 맞춰 기술을 선택할 때 필요한 비교 분석(Trade-off) 정보가 잘 정리되어 있습니다. ...
+
+## Reason
+Captured automatically because the conversation contained decision-oriented language.
+
+## Alternatives
+Not captured yet.
+
+## Consequences
+- Future prompts should treat this as project context unless the user changes direction.
@@ -0,0 +1,31 @@
+# Project Profile
+
+## Project Name
+Topics_Rag
+
+## Description
+Auto-created by Project Architecture activation.
+
+## Project Root
+E:\Wiki\2nd\10_Wiki\Topics\Topics_Rag
+
+## Record Root
+E:\Wiki\2nd\10_Wiki\Topics\Topics_Rag\docs\records\Topics_Rag
+
+## Core Purpose
+Not captured yet.
+
+## Target Users
+Not captured yet.
+
+## Avoid Directions
+Not captured yet.
+
+## Record Detail Level
+standard
+
+## Created
+2026-06-08T08:29:09.889Z
+
+## Updated
+2026-06-08T08:29:09.911Z
@@ -0,0 +1,10 @@
+# Project Timeline
+
+## 2026-06-08
+- Project Chronicle record folder initialized for Topics_Rag.
+
+## 2026-06-08
+- Auto decision record created: decisions\ADR-0001-e-wiki-2nd-10-wiki-topics-topics-rag-여기-아래에-잇는-내용들이-쓸모가-있는것인.md
+
+## 2026-06-08
+- Auto decision record created: decisions\ADR-0002-e-wiki-2nd-10-wiki-topics-topics-rag-여기-아래에-잇는-내용들이-쓸모가-있는것인.md
@@ -63,6 +63,16 @@ github_commit: ""
 - **Parent Document 전략:** 실무에서 부모 2000자, 자식 400자 설정을 통해 긴 법률 문서의 정밀 검색과 전체 문맥 확인을 병행하는 아키텍처가 제안되었다 [S37, S81].
 - **KT Cloud RAG Suite:** 이미지, PDF, 워드 등 다양한 문서 유형에 대해 레이아웃과 표 구조를 보존하며 최적화된 청킹을 제공하는 API 서비스로 운영되고 있다 [S342, S393].

+
+<!-- CODE-GROUNDING:START -->
+### 🔎 코드베이스 근거 (자동 추출 — E:\Wiki 레포)
+**실제 구현/사용 위치:**
+- `connectai/src/retrieval/chunker.ts:7` — * 쪼개면 질의가 정확히 해당 섹션에 매치된다 (제2뇌의 "문서 청킹 전략" 지식 그대로).
+- `connectai/src/retrieval/evalHarness.ts:13` — *   { "query": "RAG 청킹 전략 비교", "expected": ["문서 청킹 전략.md"], "note": "선택" }
+
+_자동 생성: code_grounding.mjs · 재실행 시 갱신됨_
+<!-- CODE-GROUNDING:END -->
+
 ## ✅ 검증 상태 및 신뢰도
 - **상태:** draft
 - **검증 단계:** conceptual (실제 구현 코드 및 라이브러리 가이드 기반)
@@ -64,6 +64,15 @@ github_commit: ""
 - **로컬 개발:** `01_RAG_파이프라인_기초_아키텍처.ipynb`에서 Chroma를 활용해 세법 문서를 로컬 디스크(`persist_directory`)에 저장하고 관리하는 사례가 있음 [S29, S74].
 - **하이브리드 구현:** Redis Stack을 사용하여 벡터 검색과 일반 캐싱을 결합한 시맨틱 캐싱 아키텍처가 제안됨 [S221, S231].

+
+<!-- CODE-GROUNDING:START -->
+### 🔎 코드베이스 근거 (자동 추출 — E:\Wiki 레포)
+**실제 구현/사용 위치:**
+- `connectai/src/retrieval/evalHarness.ts:59` — '{"query": "벡터 데이터베이스 어떤 걸 골라야 하나", "expected": ["벡터 데이터베이스 비교.md"]}',
+
+_자동 생성: code_grounding.mjs · 재실행 시 갱신됨_
+<!-- CODE-GROUNDING:END -->
+
 ## ✅ 검증 상태 및 신뢰도
 - **상태:** draft
 - **검증 단계:** conceptual (실제 Pinecone 및 Chroma 구현 코드가 소스에 포함됨)