[G1-Sync] Manual knowledge update

2026-06-08 17:28:06 +09:00
parent d8a80f6272
commit af11d666d2
38 changed files with 3991 additions and 0 deletions
@@ -0,0 +1,86 @@
+---
+id: ragas-평가-지표
+title: "RAGAS 평가 지표"
+category: "AI_and_ML"
+status: "draft"
+verification_status: "conceptual"
+canonical_id: ""
+aliases: ["RAGAS", "RAG Assessment", "RAG Triad", "RAG 정량 평가", "Context Precision", "Faithfulness", "Answer Relevance"]
+duplicate_of: ""
+source_trust_level: "A"
+confidence_score: 0.95
+created_at: 2026-06-08
+updated_at: 2026-06-08
+review_reason: ""
+merge_history: []
+tags: ["research", "RAG 아키텍처 및 파이프라인 기초", "Evaluation", "LLMOps", "RAGAS"]
+raw_sources: ["RAG 기반 AI 서비스의 신뢰성을 확보하는 방법: 자동화 평가 체계 및 운영 최적화", "RAG 솔루션 디자인 및 개발 - Azure Architecture Center - Microsoft Learn", "1. RAG 파이프라인 기초 아키텍처", "RAG 기술의 진화: Naive에서 Modular까지 총정리 - 슈퍼브 블로그"]
+applied_in: ["Arize Phoenix integration", "RAG experiment accelerator GitHub", "Continuous Evaluation Pipeline"]
+github_commit: ""
+---
+
+# [[RAGAS 평가 지표]]
+
+## 🎯 한 줄 통찰 (One-line insight)
+RAGAS는 RAG 시스템을 'RAG Triad'라 불리는 세 가지 핵심 축(Context, Answer, Query)으로 분해하여, 검색의 정밀도와 생성의 근거성을 데이터 기반으로 정량 측정하는 진단형 평가 프레임워크이다 [S217, S226].
+
+## 🧠 핵심 개념 (Core concepts)
+- **RAG Triad:** 검색된 문서(Context), 생성된 답변(Answer), 사용자의 질문(Query) 사이의 상관관계를 분석하는 평가의 세 축이다 [S217].
+- **Context Precision (문맥 정밀도):** 검색 단계의 품질을 측정하며, 답변에 필요한 핵심 정보가 검색 결과 상단에 얼마나 잘 노출되는지 평가한다 [S217, S226].
+- **Faithfulness (충실성):** 생성 단계의 환각을 통제하며, 모델이 외부 지식 없이 오직 제공된 문맥에만 근거하여 답변했는지를 검증한다 [S217, S226].
+- **Answer Relevance (답변 관련성):** 생성된 답변이 사용자의 질문 의도와 핵심 내용을 얼마나 정확하게 반영하고 있는지를 측정한다 [S217, S226].
+
+## 🧩 추출된 패턴 (Extracted patterns)
+- **Step-by-Step Diagnostics:** 지표 하락 지점에 따라 문제를 진단한다. Context Precision 저하는 '검색 단계', Faithfulness 저하는 '생성 단계', Answer Relevance 저하는 '의도 해석/프롬프트'의 문제로 구분한다 [S219, S228].
+- **LLM-as-a-Judge Loop:** 상위 모델(GPT-4 등)이 하위 모델의 응답을 RAGAS 지표로 평가하고 점수를 부여하여 대규모 로그를 자동 분석하는 패턴이다 [S219, S228].
+- **Cost-Performance Balancing:** 모든 응답을 고성능 모델로 평가하는 비용 부담을 줄이기 위해, 평가 전용으로 튜닝된 경량 모델([[sLLM]])을 배치하여 평가 자동화를 구현한다 [S223, S232].
+
+## 📖 세부 내용 (Details)
+
+### 1. RAG Triad 지표 상세 분석 [S217, S218, S226, S227]
+*   **Context Precision:** 단순히 관련 문서가 검색 결과에 포함되었는가보다, "필요한 정보가 상위권에 배치되었는가"를 중점적으로 평가한다. 이는 LLM이 컨텍스트 윈도우 상단의 정보를 우선 참조하는 특성을 반영한 것이다.
+*   **Faithfulness:** 할루시네이션(Hallucination)을 직접적으로 통제하는 지표다. 검색된 문서 A에 "카페인이 적다"는 내용이 있을 때, 답변에 "우유가 들어있다"는 식의 문맥 외 정보가 포함되면 점수가 낮아진다.
+*   **Answer Relevance:** 질문의 핵심 의도에 정확히 대응하는지를 본다. 불필요한 부연 설명이 많거나 질문의 범위를 벗어난 답변은 관련성 점수가 깎인다.
+
+### 2. 평가 프로세스 및 자동화 [S219, S221, S261]
+*   **정량적 수치화:** "우리 AI는 답변을 잘한다"는 주관적 판단 대신, "현재 시스템의 Faithfulness는 92%이다"와 같은 객관적 지표를 통해 품질을 관리한다.
+*   **오케스트레이션 연동:** LangChain이나 LlamaIndex와 같은 프레임워크와 결합하여 인덱싱부터 생성, 평가까지의 전체 파이프라인 품질을 지속적으로 측정한다.
+*   **실험 가속기 활용:** `RAG 실험 가속기` GitHub 리포지토리 등을 통해 다양한 하이퍼파라미터(청크 사이즈, 임베딩 모델 등) 조건에서의 RAGAS 점수를 비교하여 최적의 전략을 도출한다.
+
+### 3. 평가의 한계 및 보정 [S220, S229]
+*   **Self-preference Bias:** 판사 모델과 동일 계열의 모델이 생성한 응답에 더 높은 점수를 주는 경향이 있다.
+*   **Verbosity Bias:** 답변의 정확도와 무관하게 분량이 길수록 우수하다고 판단하는 편향이 존재한다.
+*   **해결책:** 완전 자동화에 의존하지 않고, 주기적인 인간 검수(Human-in-the-loop)를 통해 AI의 평가 결과를 교정하는 과정이 병행되어야 한다.
+
+## ⚖️ 모순 및 업데이트 (Contradictions & updates)
+*   **평가 비용 이슈:** 초기에는 모든 로그 평가에 고성능 LLM을 사용했으나, 최근에는 비용과 지연 시간을 줄이기 위해 평가 전용 sLLM이나 [[DPO]] (Direct Preference Optimization) 루프를 활용하는 방식으로 업데이트되고 있다 [S223, S232].
+*   **지표의 상호 보완:** 개별 지표의 높은 점수가 반드시 '최고의 사용자 경험'을 보장하지는 않으므로, 세 지표의 균형과 함께 정성적 리뷰가 반드시 수반되어야 함이 강조된다 [S262].
+
+## 🛠️ 적용 사례 (Applied in summary)
+*   **Arize Phoenix:** RAG Triad 지표를 자동으로 산출하고, 검색 문서와 답변 간의 관계를 시각화하여 품질 저하 지점을 추적하는 도구로 적용되었다 [S221, S230].
+*   **RAG 실험 가속기:** Azure 환경에서 여러 실험의 평가 결과를 집계하고 시각화하여 가장 적합한 RAG 구현 전략을 찾는 데 활용되었다 [S261].
+*   **데이터 기반 운영:** "Faithfulness 90% 유지"와 같은 SLA(Service Level Agreement) 수립의 근거 데이터로 활용되고 있다 [S224, S233].
+
+## ✅ 검증 상태 및 신뢰도
+- **상태:** draft
+- **검증 단계:** conceptual (실제 솔루션 스택 및 실험 가속기에 적용됨)
+- **출처 신뢰도:** A (Microsoft Azure, 교보DTS 등 기술 운영 전문 조직의 분석에 기반함)
+- **신뢰 점수:** 0.95
+- **중복 검사 결과:** 신규 생성 (New discovery)
+
+## 🔗 지식 그래프 (Knowledge Graph)
+- **상위/루트:** [[RAG 아키텍처 및 파이프라인 기초]]
+- **관련 개념:** [[LLMOps]], [[LLM-as-a-Judge]], [[Advanced RAG 기법]], [[Faithfulness]], [[sLLM]]
+- **참조 맥락:** 고신뢰도 AI 서비스의 품질 모니터링 및 검색/생성 파이프라인의 병목 지점 진단 시 참조.
+
+## 📚 출처 (Sources)
+- [S217] RAGAS 프레임워크와 RAG Triad 지표 정의 (교보DTS)
+- [S218] RAG Triad 지표별 해석 예시 (교보DTS)
+- [S219] LLM-as-a-Judge를 통한 평가 자동화 (교보DTS)
+- [S221] Arize Phoenix, Ragas 솔루션 스택 (교보DTS)
+- [S223] sLLM 및 DPO를 활용한 평가 최적화 (교보DTS)
+- [S226] RAGAS 평가 체계와 Triad 축 상세 (교보DTS 복사본)
+- [S261] 언어 모델 종단 간 평가 메트릭 및 실험 가속기 (Microsoft Learn)
+
+## 📝 변경 이력 (Change history)
+- 2026-06-08: Initial draft generated via Datacollector_MAC P-Reinforce engine.