Files
2nd/10_Wiki/Topics/AI_and_ML/RAG Evaluation Frameworks.md
T
Antigravity Agent 0441f6e2a2 feat(wiki): implement P-Reinforce v3.0 standard & integrate 26+ new knowledge artifacts
- Formalized automatic record migration protocol in System Manual.
- Integrated high-density knowledge for RAG, AI, Business Strategy, and Leadership.
- Enhanced graph connectivity across core strategic hubs.
- Archived raw data and updated timeline records.
2026-05-04 22:40:32 +09:00

3.9 KiB


id: P-Reinforce-AUTO-REF-001 category: AI_and_ML confidence_score: 1.00 tags: [auto-reinforced, rag-evaluation, ragas, faithfulness, llm-as-judge, quality-assurance] last_reinforced: 2026-05-04

RAG Evaluation Frameworks

📌 한 줄 통찰 (The Karpathy Summary)

"RAG 품질의 자율 검증 체계: 수작업 평가의 한계를 넘어 LLM-as-judge 기법을 활용하여 검색의 정확성과 생성의 진실성을 자동으로 측정하고 개선하는 평가 엔지니어링 프레임워크."

📖 구조화된 지식 (Synthesized Content)

RAG 평가 프레임워크는 검색 증강 생성 시스템의 각 단계(검색 및 생성)를 정량적으로 평가하여 파이프라인을 최적화하는 데 사용됩니다.

  1. 3대 핵심 평가 지표 (RAGAS Metric):

    • Faithfulness: 생성된 답변이 검색된 컨텍스트에 얼마나 기반하고 있는가? (환각 억제 능력 측정)
    • Answer Relevancy: 최종 답변이 사용자의 질문 의도에 얼마나 적절히 부합하는가?
    • Context Precision & Recall: 질문에 필요한 핵심 정보가 검색된 문서들 속에 누락 없이, 상단에 포함되어 있는가?
  2. LLM-as-judge 방법론:

    • 사람이 아닌 고성능 LLM(예: GPT-4)이 정해진 평가 기준(Rubrics)에 따라 답변의 품질을 점수화합니다.
    • RAGAS, Galileo, Maxim AI, Braintrust 등의 최신 프레임워크가 이 방식을 채택하여 평가를 자동화합니다.
  3. 운영 프로세스 (Quality Gates):

    • Golden Datasets: 실제 실패 사례를 모아놓은 표준 데이터셋을 기준으로 시스템 개선 여부를 판단합니다.
    • CI/CD 통합: 새로운 알고리즘 배포 시 평가 점수가 기준치 미달일 경우 배포를 자동으로 차단하는 품질 게이트를 설정합니다.

⚖️ Trade-offs & Caveats

  • 평가 비용: 고성능 LLM을 평가자로 사용할 경우, 수만 건의 쿼리를 평가하는 과정에서 상당한 API 비용과 지연 시간이 발생합니다.
  • 평가자 편향: 평가 모델 자체가 가진 편향성으로 인해 사람이 느끼는 실제 품질과 자동화 점수 간의 괴리가 발생할 수 있으므로, 주기적인 인간 평가(Human Evaluation) 병행이 필수적입니다.

💻 실전 구현 코드 (Boilerplate)

RAGAS 라이브러리를 사용하여 검색된 결과와 생성된 답변의 품질을 평가하는 예시입니다.

from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevancy, context_recall
from datasets import Dataset

# 1. 평가용 데이터셋 준비 (질문, 답변, 검색된 컨텍스트, 정답지)
data_samples = {
    'question': ['Astra의 P-Reinforce 표준이 뭐야?'],
    'answer': ['지식의 구조화와 보강을 위한 표준 프로토콜입니다.'],
    'contexts': [['Astra 프로젝트는 P-Reinforce v3.0 표준을 통해 위키를 자동화합니다.']],
    'ground_truth': ['P-Reinforce v3.0은 지식 보강 및 위키 표준화를 위한 프로토콜입니다.']
}
dataset = Dataset.from_dict(data_samples)

# 2. 평가 실행
score = evaluate(
    dataset,
    metrics=[faithfulness, answer_relevancy, context_recall]
)

# 3. 결과 대시보드 출력
print(f"Faithfulness Score: {score['faithfulness']:.4f}")
print(f"Answer Relevancy: {score['answer_relevancy']:.4f}")

🔗 지식 연결 (Graph)


Last updated: 2026-05-04