--- id: moc-topics_rag title: "Topics_Rag — 학습 지도 (MOC)" category: "MOC" status: "active" type: "map-of-content" tags: ["MOC", "Topics_Rag"] updated_at: 2026-06-08 --- # 🗺️ Topics_Rag — 학습 지도 (MOC) > 이 클러스터의 **36개 문서**에 대한 진입점과 학습 순서. 자동 생성(moc_generator.mjs) — 재실행 시 갱신. ## 🚀 여기서 시작 (Start here) - [[RAG 아키텍처 및 파이프라인 기초]] — RAG는 LLM의 정적 지식 한계와 환각을 극복하기 위해 외부 지식 베이스를 검색(Retrieval)하여 생성(Generation) 과정에 실시간으로 결합하는 고정밀 지식 보강 프레임워크이다 [S9, S108, S154]. ## 📚 전체 문서 (Topics) - [[개체 및 관계 추출]] — 개체 및 관계 추출은 비정형 텍스트 내에 숨겨진 지식의 원자(Entity)와 연결고리(Relationship)를 식별하여, 파편화된 정보를 상호 연결된 지식 그래프 구조로 전환함으로써 RAG의 복합 추론 능력을 극대화하는 핵심 공정이다 [S276, S - [[그래프 데이터베이스]] — 데이터를 단순한 텍스트 조각이 아닌 **개체(Entity)와 관계(Relationship)의 네트워크**로 구조화하여, 기존 벡터 검색이 놓치기 쉬운 복잡한 다중 도약(Multi-hop) 지식 연결을 정밀하게 복원하는 차세대 RAG 검색 인프라의 핵심 - [[데이터 버전 관리]] — 데이터 버전 관리는 임베딩 모델, 벡터 인덱스, 프롬프트를 하나의 단위로 묶어 관리함으로써 시스템 변경에 따른 검색 불일치를 방지하고 결과의 재현성과 추적성을 보장하는 신뢰 기반 운영 기술이다 [S125, S325]. - [[데이터 인덱싱 및 오케스트레이션]] — 데이터 인덱싱은 비정형 지식을 기계가 검색 가능한 최적의 구조로 전처리하여 저장하는 '기반 공정'이며, 오케스트레이션은 사용자 질의부터 최종 답변까지의 복잡한 추론 흐름을 동적으로 제어하는 '통합 관제' 시스템이다 [S13, S259, S300]. - [[문서 청킹 전략]] — 청킹은 검색의 정밀도(Precision)와 문맥의 풍부함(Context) 사이의 트레이드오프를 최적화하여 RAG 시스템의 답변 품질을 결정하는 핵심 전처리 공정이다 [S17, S122, S168]. - [[벡터 데이터베이스]] — 벡터 데이터베이스는 텍스트의 언어적 의미를 고차원 기하학적 좌표로 투영하여 저장하고, 단순 키워드 매칭을 넘어 맥락 기반의 유사도 검색(Similarity Search)을 수행하는 RAG 시스템의 핵심 지식 저장소이다 [S13, S116, S183]. - [[웹벤치마크 caliverse.io 2026-06-08]] - [[웹벤치마크 www.caliverse.io 2026-06-04]] - [[임베딩 모델]] — 임베딩 모델은 비정형 데이터를 고차원 수학적 벡터로 치환하여 지식의 의미적 맥락을 기하학적 공간에 정렬함으로써, LLM이 외부 지식을 정확히 탐색할 수 있게 돕는 RAG 파이프라인의 핵심 지능 엔진이다 [1-3]. - [[재귀적 문자 분할]] — 텍스트의 구조적 위계를 존중하는 구분자 세트를 순차 적용하여, 청크 크기 제약을 준수하면서도 문맥적 무결성을 극대화하는 RAG 인프라의 표준 텍스트 분할 알고리즘 [1, 2]. - [[지식 그래프]] — 지식 그래프는 파편화된 비정형 데이터를 상호 연결된 개체(Node)와 관계(Edge)의 망으로 구조화하여, 단순 유사도 검색을 넘어 데이터 전체에 대한 거시적 통찰과 복합적인 맥락 추론을 가능하게 하는 차세대 지식 표상 체계이다 [S276, S277] - [[청킹 전략]] — 청킹은 단순히 텍스트를 자르는 과정이 아니라, 검색의 정밀도(Precision)와 문맥의 일관성(Coherence) 사이의 최적 균형을 찾아 LLM에 전달할 정보의 밀도를 결정하는 RAG 파이프라인의 핵심 공정이다.[1-3] - [[텍스트 임베딩 모델]] — 텍스트 임베딩은 자연어의 비정형 의미 구조를 고차원 수치 벡터로 투영함으로써, 인간의 언어적 맥락을 기계가 계산 가능한 기하학적 유사도로 변환하는 RAG의 핵심 교량이다 [S23, S112, S183]. - [[텍스트 정규화]] — 텍스트 정규화는 파싱된 비정형 데이터에서 노이즈를 제거하고 형식적 일관성을 부여하여, 임베딩 벡터의 선명도를 높이고 검색 및 생성 단계의 품질을 보장하는 데이터 전처리의 최종 관문이다 [S344, S396]. - [[텍스트 토크나이저]] — 토크나이저는 자연어의 비정형 의미를 기계가 연산 가능한 수치적 단위(Token)로 분해하는 첫 번째 관문이며, 모델의 컨텍스트 제한 조건과 언어적 특성(형태소 등)을 정밀하게 정렬(Alignment)해야만 정보 손실 없는 검색과 생성이 가능하다 [S1 - [[하이브리드 검색]] — 하이브리드 검색은 의미 기반의 Dense Search와 키워드 기반의 Sparse Search를 결합하여, 벡터 유사도가 놓치기 쉬운 고유명사·숫자의 정밀도(Precision)와 문맥적 재현율(Recall)을 동시에 확보하는 RAG의 필수 검색 전략이 - [[Advanced RAG 기법]] — Advanced RAG는 단순한 '검색 후 생성'을 넘어, 질의 변환(Query Transformation)과 재순위화(Re-ranking) 등 정교한 전/후처리 파이프라인을 도입하여 검색의 재현율(Recall)과 답변의 정밀도(Precision)를 - [[Agentic RAG]] — Agentic RAG는 고정된 파이프라인 대신 AI 에이전트가 사용자 질의에 따라 검색 필요성, 도구 선택, 결과 검증을 스스로 판단하여 실행하는 '자율적 검색 전략' 프레임워크이다 [S280, S293]. - [[Context Precision]] — 검색된 결과 중 실제 유용한 정보의 비율과 순위를 평가하여, 생성 모델이 가장 정확한 근거를 최상단에서 참조할 수 있도록 보장하는 RAG 검색 품질의 핵심 지표 [1-3] - [[Context Recall]] — Context Recall은 지식 베이스 내에 존재하는 정답 관련 정보를 누락 없이 얼마나 완벽하게 검색해냈는지를 측정하는 검색 성능의 '망라성' 지표이다 [1, 2]. - [[CRAG]] — CRAG는 검색된 문서의 품질을 실시간으로 자가 진단하고, 결과가 부정확할 경우 웹 검색 등 대체 수단을 동원해 답변의 신뢰성을 강제로 교정하는 '검증 중심 RAG' 아키텍처이다 [S15, S16]. - [[DevOps]] — DevOps는 소프트웨어 개발(Dev)과 운영(Ops)의 경계를 허물고 **Git 버전 제어 및 애자일(Agile) 메서드**를 통해 시스템의 **연속적인 통합, 배포, 그리고 관리**를 자동화하는 협업 체계이다 [S256, S265]. - [[GraphRAG]] — GraphRAG는 문서를 조각난 벡터가 아닌 상호 연결된 지식 그래프로 구조화하여, 파편화된 정보 간의 연결 관계 추론과 데이터셋 전체에 대한 거시적 요약을 가능하게 하는 차세대 지식 통합 프레임워크이다 [S276, S277]. - [[LangChain]] — 다양한 AI 구성 요소를 모듈식으로 조립하여 복잡한 다단계 워크플로우와 자율적 에이전틱 AI 애플리케이션을 구축할 수 있는 범용 오케스트레이션 프레임워크 [1-4]. - [[LlamaIndex]] — 방대한 외부 데이터를 LLM과 연결하기 위해 데이터 수집, 계층적 인덱싱 및 검색 최적화에 모든 역량을 집중한 지식 지향적 RAG 전문 프레임워크 [1-3]. - [[LLM]] — 고정된 파라미터 지식의 한계를 넘어, 실시간으로 검색된 외부 컨텍스트를 합성하여 신뢰할 수 있는 응답을 생성하는 RAG 시스템의 핵심 생성 엔진 [1, 2]. - [[LLM-as-a-Judge]] — LLM-as-a-Judge는 상위 성능의 모델이 다른 모델의 응답을 문맥 적합성과 논리적 일관성에 따라 정량적으로 평가하게 함으로써, 인적 검수의 확장성 한계를 극복하고 대규모 서비스 로그를 자동 분석하는 LLMOps의 핵심 지능형 평가 메커니즘이다 - [[LLMOps]] — LLMOps는 언어 모델을 블랙박스로 두지 않고, 데이터 기반의 정량적 평가와 실시간 모니터링을 통해 AI 시스템을 '개발 대상'에서 '지속 가능한 운영 대상'으로 전환하는 관리 체계이다 [S217]. - [[MLOps]] — MLOps는 머신러닝 모델을 단순한 개발 대상이 아닌 데이터 기반의 지속적 운영 대상으로 관리하며, 파이프라인 자동화와 버전 제어를 통해 실험의 재현성과 시스템 신뢰성을 확보하는 체계이다 [S217, S340]. - [[RAG 아키텍처]] — RAG 아키텍처는 대규모 언어 모델(LLM)의 매개변수를 수정하지 않고도 외부 지식 베이스를 비매개변수적 메모리로 활용하여 할루시네이션을 억제하고 정보의 최신성과 신뢰성을 확보하는 핵심 기술 패러다임이다 [1-3]. - [[RAG 파이프라인]] — RAG 파이프라인은 대규모 언어 모델(LLM)의 정적인 지식 제한을 극복하기 위해 외부 데이터 소스로부터 실시간으로 지식을 검색하고 이를 생성 과정에 주입하여 사실에 기반한(Grounded) 응답을 도출하는 핵심 워크플로우다 [1-3]. - [[RAGAS]] — RAGAS는 "LLM-as-a-Judge" 기법을 통해 RAG 파이프라인의 검색 품질과 생성 신뢰성을 데이터 기반으로 정량화하고 최적화하는 전용 평가 프레임워크이다 [1, 2]. - [[RAGAS 평가 지표]] — RAGAS는 RAG 시스템을 'RAG Triad'라 불리는 세 가지 핵심 축(Context, Answer, Query)으로 분해하여, 검색의 정밀도와 생성의 근거성을 데이터 기반으로 정량 측정하는 진단형 평가 프레임워크이다 [S217, S226]. - [[Re-ranking]] — Re-ranking은 1차 검색(Recall)으로 확보된 다수의 후보 문서들을 질의와의 실제 의미적 관련성에 따라 재정렬함으로써, 정답 정보가 LLM의 컨텍스트 윈도우 상단에 배치되도록 보장하는 정밀도(Precision) 최적화 공정이다 [S12, S - [[Reranker]] — 초단계 벡터 검색에서 확보한 후보 문서군을 크로스-인코더(Cross-Encoder)로 재평가하여 검색 정밀도(Context Precision)를 개선하고 생성 모델의 답변 정확도를 극대화하는 RAG 파이프라인의 핵심 최적화 컴포넌트 [1-3]. _36 docs · 자동 생성 2026-06-08_