Files
2nd/10_Wiki/Topics_Rag/_MOC.md
T
koriweb 95cd8bb891 feat(wiki): 코드 그라운딩 23문서 + MOC 학습지도 39개
- 코드 그라운딩: 기술 주제 문서의 '적용 사례'에 실제 레포 구현 위치
  (file:line)+커밋 자동 주입 (예: 문서 청킹 전략→connectai/src/retrieval/chunker.ts).
  멱등 마커(CODE-GROUNDING)로 재실행 시 갱신.
- MOC: 39개 클러스터 폴더에 _MOC.md 학습지도 생성(진입점+통찰 주석).
도구: Datacollect/scripts/{code_grounding,moc_generator}.mjs

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-08 18:56:11 +09:00

10 KiB

id, title, category, status, type, tags, updated_at
id title category status type tags updated_at
moc-topics_rag Topics_Rag — 학습 지도 (MOC) MOC active map-of-content
MOC
Topics_Rag
2026-06-08

🗺️ Topics_Rag — 학습 지도 (MOC)

이 클러스터의 36개 문서에 대한 진입점과 학습 순서. 자동 생성(moc_generator.mjs) — 재실행 시 갱신.

🚀 여기서 시작 (Start here)

  • RAG 아키텍처 및 파이프라인 기초 — RAG는 LLM의 정적 지식 한계와 환각을 극복하기 위해 외부 지식 베이스를 검색(Retrieval)하여 생성(Generation) 과정에 실시간으로 결합하는 고정밀 지식 보강 프레임워크이다 [S9, S108, S154].

📚 전체 문서 (Topics)

  • 개체 및 관계 추출 — 개체 및 관계 추출은 비정형 텍스트 내에 숨겨진 지식의 원자(Entity)와 연결고리(Relationship)를 식별하여, 파편화된 정보를 상호 연결된 지식 그래프 구조로 전환함으로써 RAG의 복합 추론 능력을 극대화하는 핵심 공정이다 [S276, S
  • 그래프 데이터베이스 — 데이터를 단순한 텍스트 조각이 아닌 개체(Entity)와 관계(Relationship)의 네트워크로 구조화하여, 기존 벡터 검색이 놓치기 쉬운 복잡한 다중 도약(Multi-hop) 지식 연결을 정밀하게 복원하는 차세대 RAG 검색 인프라의 핵심
  • 데이터 버전 관리 — 데이터 버전 관리는 임베딩 모델, 벡터 인덱스, 프롬프트를 하나의 단위로 묶어 관리함으로써 시스템 변경에 따른 검색 불일치를 방지하고 결과의 재현성과 추적성을 보장하는 신뢰 기반 운영 기술이다 [S125, S325].
  • 데이터 인덱싱 및 오케스트레이션 — 데이터 인덱싱은 비정형 지식을 기계가 검색 가능한 최적의 구조로 전처리하여 저장하는 '기반 공정'이며, 오케스트레이션은 사용자 질의부터 최종 답변까지의 복잡한 추론 흐름을 동적으로 제어하는 '통합 관제' 시스템이다 [S13, S259, S300].
  • 문서 청킹 전략 — 청킹은 검색의 정밀도(Precision)와 문맥의 풍부함(Context) 사이의 트레이드오프를 최적화하여 RAG 시스템의 답변 품질을 결정하는 핵심 전처리 공정이다 [S17, S122, S168].
  • 벡터 데이터베이스 — 벡터 데이터베이스는 텍스트의 언어적 의미를 고차원 기하학적 좌표로 투영하여 저장하고, 단순 키워드 매칭을 넘어 맥락 기반의 유사도 검색(Similarity Search)을 수행하는 RAG 시스템의 핵심 지식 저장소이다 [S13, S116, S183].
  • 웹벤치마크 caliverse.io 2026-06-08
  • 웹벤치마크 www.caliverse.io 2026-06-04
  • 임베딩 모델 — 임베딩 모델은 비정형 데이터를 고차원 수학적 벡터로 치환하여 지식의 의미적 맥락을 기하학적 공간에 정렬함으로써, LLM이 외부 지식을 정확히 탐색할 수 있게 돕는 RAG 파이프라인의 핵심 지능 엔진이다 [1-3].
  • 재귀적 문자 분할 — 텍스트의 구조적 위계를 존중하는 구분자 세트를 순차 적용하여, 청크 크기 제약을 준수하면서도 문맥적 무결성을 극대화하는 RAG 인프라의 표준 텍스트 분할 알고리즘 [1, 2].
  • 지식 그래프 — 지식 그래프는 파편화된 비정형 데이터를 상호 연결된 개체(Node)와 관계(Edge)의 망으로 구조화하여, 단순 유사도 검색을 넘어 데이터 전체에 대한 거시적 통찰과 복합적인 맥락 추론을 가능하게 하는 차세대 지식 표상 체계이다 [S276, S277]
  • 청킹 전략 — 청킹은 단순히 텍스트를 자르는 과정이 아니라, 검색의 정밀도(Precision)와 문맥의 일관성(Coherence) 사이의 최적 균형을 찾아 LLM에 전달할 정보의 밀도를 결정하는 RAG 파이프라인의 핵심 공정이다.[1-3]
  • 텍스트 임베딩 모델 — 텍스트 임베딩은 자연어의 비정형 의미 구조를 고차원 수치 벡터로 투영함으로써, 인간의 언어적 맥락을 기계가 계산 가능한 기하학적 유사도로 변환하는 RAG의 핵심 교량이다 [S23, S112, S183].
  • 텍스트 정규화 — 텍스트 정규화는 파싱된 비정형 데이터에서 노이즈를 제거하고 형식적 일관성을 부여하여, 임베딩 벡터의 선명도를 높이고 검색 및 생성 단계의 품질을 보장하는 데이터 전처리의 최종 관문이다 [S344, S396].
  • 텍스트 토크나이저 — 토크나이저는 자연어의 비정형 의미를 기계가 연산 가능한 수치적 단위(Token)로 분해하는 첫 번째 관문이며, 모델의 컨텍스트 제한 조건과 언어적 특성(형태소 등)을 정밀하게 정렬(Alignment)해야만 정보 손실 없는 검색과 생성이 가능하다 [S1
  • 하이브리드 검색 — 하이브리드 검색은 의미 기반의 Dense Search와 키워드 기반의 Sparse Search를 결합하여, 벡터 유사도가 놓치기 쉬운 고유명사·숫자의 정밀도(Precision)와 문맥적 재현율(Recall)을 동시에 확보하는 RAG의 필수 검색 전략이
  • Advanced RAG 기법 — Advanced RAG는 단순한 '검색 후 생성'을 넘어, 질의 변환(Query Transformation)과 재순위화(Re-ranking) 등 정교한 전/후처리 파이프라인을 도입하여 검색의 재현율(Recall)과 답변의 정밀도(Precision)를
  • Agentic RAG — Agentic RAG는 고정된 파이프라인 대신 AI 에이전트가 사용자 질의에 따라 검색 필요성, 도구 선택, 결과 검증을 스스로 판단하여 실행하는 '자율적 검색 전략' 프레임워크이다 [S280, S293].
  • Context Precision — 검색된 결과 중 실제 유용한 정보의 비율과 순위를 평가하여, 생성 모델이 가장 정확한 근거를 최상단에서 참조할 수 있도록 보장하는 RAG 검색 품질의 핵심 지표 [1-3]
  • Context Recall — Context Recall은 지식 베이스 내에 존재하는 정답 관련 정보를 누락 없이 얼마나 완벽하게 검색해냈는지를 측정하는 검색 성능의 '망라성' 지표이다 [1, 2].
  • CRAG — CRAG는 검색된 문서의 품질을 실시간으로 자가 진단하고, 결과가 부정확할 경우 웹 검색 등 대체 수단을 동원해 답변의 신뢰성을 강제로 교정하는 '검증 중심 RAG' 아키텍처이다 [S15, S16].
  • DevOps — DevOps는 소프트웨어 개발(Dev)과 운영(Ops)의 경계를 허물고 Git 버전 제어 및 애자일(Agile) 메서드를 통해 시스템의 연속적인 통합, 배포, 그리고 관리를 자동화하는 협업 체계이다 [S256, S265].
  • GraphRAG — GraphRAG는 문서를 조각난 벡터가 아닌 상호 연결된 지식 그래프로 구조화하여, 파편화된 정보 간의 연결 관계 추론과 데이터셋 전체에 대한 거시적 요약을 가능하게 하는 차세대 지식 통합 프레임워크이다 [S276, S277].
  • LangChain — 다양한 AI 구성 요소를 모듈식으로 조립하여 복잡한 다단계 워크플로우와 자율적 에이전틱 AI 애플리케이션을 구축할 수 있는 범용 오케스트레이션 프레임워크 [1-4].
  • LlamaIndex — 방대한 외부 데이터를 LLM과 연결하기 위해 데이터 수집, 계층적 인덱싱 및 검색 최적화에 모든 역량을 집중한 지식 지향적 RAG 전문 프레임워크 [1-3].
  • LLM — 고정된 파라미터 지식의 한계를 넘어, 실시간으로 검색된 외부 컨텍스트를 합성하여 신뢰할 수 있는 응답을 생성하는 RAG 시스템의 핵심 생성 엔진 [1, 2].
  • LLM-as-a-Judge — LLM-as-a-Judge는 상위 성능의 모델이 다른 모델의 응답을 문맥 적합성과 논리적 일관성에 따라 정량적으로 평가하게 함으로써, 인적 검수의 확장성 한계를 극복하고 대규모 서비스 로그를 자동 분석하는 LLMOps의 핵심 지능형 평가 메커니즘이다
  • LLMOps — LLMOps는 언어 모델을 블랙박스로 두지 않고, 데이터 기반의 정량적 평가와 실시간 모니터링을 통해 AI 시스템을 '개발 대상'에서 '지속 가능한 운영 대상'으로 전환하는 관리 체계이다 [S217].
  • MLOps — MLOps는 머신러닝 모델을 단순한 개발 대상이 아닌 데이터 기반의 지속적 운영 대상으로 관리하며, 파이프라인 자동화와 버전 제어를 통해 실험의 재현성과 시스템 신뢰성을 확보하는 체계이다 [S217, S340].
  • RAG 아키텍처 — RAG 아키텍처는 대규모 언어 모델(LLM)의 매개변수를 수정하지 않고도 외부 지식 베이스를 비매개변수적 메모리로 활용하여 할루시네이션을 억제하고 정보의 최신성과 신뢰성을 확보하는 핵심 기술 패러다임이다 [1-3].
  • RAG 파이프라인 — RAG 파이프라인은 대규모 언어 모델(LLM)의 정적인 지식 제한을 극복하기 위해 외부 데이터 소스로부터 실시간으로 지식을 검색하고 이를 생성 과정에 주입하여 사실에 기반한(Grounded) 응답을 도출하는 핵심 워크플로우다 [1-3].
  • RAGAS — RAGAS는 "LLM-as-a-Judge" 기법을 통해 RAG 파이프라인의 검색 품질과 생성 신뢰성을 데이터 기반으로 정량화하고 최적화하는 전용 평가 프레임워크이다 [1, 2].
  • RAGAS 평가 지표 — RAGAS는 RAG 시스템을 'RAG Triad'라 불리는 세 가지 핵심 축(Context, Answer, Query)으로 분해하여, 검색의 정밀도와 생성의 근거성을 데이터 기반으로 정량 측정하는 진단형 평가 프레임워크이다 [S217, S226].
  • Re-ranking — Re-ranking은 1차 검색(Recall)으로 확보된 다수의 후보 문서들을 질의와의 실제 의미적 관련성에 따라 재정렬함으로써, 정답 정보가 LLM의 컨텍스트 윈도우 상단에 배치되도록 보장하는 정밀도(Precision) 최적화 공정이다 [S12, S
  • Reranker — 초단계 벡터 검색에서 확보한 후보 문서군을 크로스-인코더(Cross-Encoder)로 재평가하여 검색 정밀도(Context Precision)를 개선하고 생성 모델의 답변 정확도를 극대화하는 RAG 파이프라인의 핵심 최적화 컴포넌트 [1-3].

36 docs · 자동 생성 2026-06-08