# [[Faithfulness & Answer Relevancy]]

## 📌 Brief Summary
Faithfulness(충실성)와 Answer Relevancy(답변 관련성)는 검색 증강 생성(RAG) 시스템의 품질을 측정하기 위해 사용되는 핵심적인 평가 지표이다 [1]. Faithfulness는 생성된 답변이 검색된 출처에 얼마나 잘 기반하고 있는지를 평가하며, Answer Relevancy는 해당 답변이 사용자의 질문을 정확하게 해결하고 있는지를 나타낸다 [1]. 이러한 지표를 통한 체계적인 평가는 기업용 AI 환경에서 신뢰성을 확보하고 배포 후 발생할 수 있는 문제를 사전에 예방하는 데 필수적인 역할을 한다 [1, 2].

## 📖 Core Content
*   **평가 지표의 정의**: 프로덕션 환경의 RAG 시스템은 검색(Retrieval)과 생성(Generation) 측면 모두에서 지속적인 평가를 요구한다 [1]. 'Faithfulness'는 답변이 출처에 근거를 두고 있는가(Does the answer stay grounded in sources?)를 판별하는 지표이며, 'Answer Relevancy'는 답변이 질문의 의도를 제대로 다루고 있는가(Does it address the question?)를 평가하는 지표이다 [1].
*   **평가 프레임워크 및 기술**: RAGAS, Galileo, Maxim AI와 같은 평가 플랫폼들은 맞춤형 루브릭(Custom rubrics)과 'LLM-as-judge(LLM을 심사관으로 활용)' 방식을 통해 이러한 지표들을 시스템적으로 평가한다 [1].
*   **품질 관리 체계 적용**: 기업들은 이 평가 인프라를 활용하여 시스템의 기대 동작을 담은 골든 데이터셋(Golden datasets)을 구축하고, 평가 지표가 하락할 경우 배포를 실패시키는 자동화된 품질 게이트(Quality gates)를 설정한다 [2]. 이처럼 지표를 기반으로 한 체계적 평가를 도입하면 배포 후 발생하는 문제의 50~70%를 줄일 수 있다 [1]. 

## ⚖️ Trade-offs & Caveats
*   **비즈니스 성과와의 불일치 한계**: Faithfulness나 Answer Relevancy와 같은 평가 지표 점수가 벤치마크상에서 높게 나오더라도, 이것이 실제 비즈니스 문제를 해결하는 결과로 직결되지 않을 수 있는 한계(Failure)가 존재한다 [3]. 
*   **정성적 평가의 병행 필요성**: 자동화된 지표의 맹점을 보완하기 위해서는 비즈니스 핵심 성과 지표(KPI)와 정렬된 도메인 특화 평가 기준을 새롭게 정의해야 하며, 샘플링된 쿼리에 대해 인간의 평가(Human evaluation)를 자동화된 측정 지표와 결합해야 한다 [3].
*   **엔지니어링 리소스 및 초기 오버헤드 증가**: 체계적인 평가 프레임워크를 도입하고 유지하기 위해서는 전담 평가 엔지니어링 리소스가 요구된다 [1]. 품질 지표 모니터링, 골든 데이터셋 구축, 자동화된 품질 게이트 설정 등 평가 인프라를 구성하는 과정은 초기 구현 시간에 약 15~20%의 추가적인 오버헤드를 발생시키며, 프로젝트 노력의 20~30%를 평가 및 관리에 예산으로 할당해야 하는 제약이 따른다 [2, 4].

---
*Last updated: 2026-05-04*