# [[Context Precision & Recall]]

## 📌 Brief Summary
컨텍스트 정밀도(Context Precision)와 컨텍스트 재현율(Context Recall)은 검색 증강 생성(RAG)과 같은 정보 검색 시스템에서 검색된 정보의 품질을 체계적으로 측정하기 위한 핵심 평가 지표이다 [1]. 컨텍스트 정밀도는 검색된 문서들이 실제 쿼리와 관련성이 있는지를 평가하며, 컨텍스트 재현율은 시스템이 필요한 모든 관련 정보를 누락 없이 찾아냈는지를 측정한다 [1]. 이러한 지표를 활용한 체계적인 평가는 기업용 AI 시스템 배포 후 발생할 수 있는 품질 저하를 방지하고 성능을 최적화하는 데 필수적으로 활용된다 [1].

## 📖 Core Content
*   **개념 및 정의:**
    *   **Context Precision (컨텍스트 정밀도):** 시스템이 반환한 문서나 청크(chunk)들이 사용자의 질의와 실제로 관련이 있는지를 평가하는 지표이다 [1, 2]. 검색 결과에 불필요한 노이즈 없이 적합한 정보를 얼마나 잘 가져왔는지를 측정하여 검색의 정확성을 파악한다 [2].
    *   **Context Recall (컨텍스트 재현율):** 시스템이 질의에 응답하는 데 필요한 모든 관련 정보를 성공적으로 찾아냈는지를 측정하는 지표이다 [1]. 관련성 있는 정보가 검색 과정에서 누락되지 않았는지를 평가한다.
*   **평가 프레임워크 및 적용:**
    *   엔터프라이즈 환경에서는 과거의 단순 무작위 샘플링 검사(spot-checking)에서 벗어나, RAGAS, Galileo, Maxim AI와 같은 최신 플랫폼을 도입하여 'LLM-as-judge' 기반의 맞춤형 루브릭으로 이 지표들을 평가한다 [1].
    *   정밀도, 재현율, F1-score 등의 정확도 지표는 RAG 모델의 성능을 벤치마킹하고, 지속적인 평가를 통해 품질 저하가 감지될 경우 배포를 중단시키는 품질 게이트(quality gates) 역할로 사용된다 [3, 4].
    *   이러한 지표를 기반으로 한 체계적인 평가 프레임워크를 도입하면 시스템 배포 후 발생하는 문제(post-deployment issues)를 50~70%까지 줄일 수 있다 [1].

## ⚖️ Trade-offs & Caveats
*   **구축 오버헤드 및 리소스 요구:** 컨텍스트 정밀도와 재현율을 측정하기 위해 골든 데이터셋을 구축하고 자동화된 품질 지표 및 관측성(observability) 인프라를 마련하는 데에는 초기 구현 시간이 15~20% 더 소요되는 오버헤드가 발생한다 [4]. 또한, 이러한 체계적인 평가를 지속적으로 운영하기 위해서는 전담 평가 엔지니어링 리소스(dedicated evaluation engineering resources)가 필수적으로 요구된다 [1].
*   **비즈니스 지표와의 불일치 위험(Misalignment):** 평가 지표(Context Precision/Recall) 상으로는 시스템 벤치마크 점수가 높게 나오더라도, 이 지표들이 실제 비즈니스 성과(KPI)나 사용자 만족도와 직결되지 않는다면 실제 문제를 해결하지 못하는 실패로 이어질 수 있다 [5]. 
*   **인간 평가의 병행 필요성:** 자동화된 지표의 한계를 보완하기 위해 도메인에 특화된 평가 기준을 정의하고, 자동화된 측정 기준과 샘플링된 질의에 대한 인간의 평가(human evaluation)를 결합하는 과정이 요구된다 [5].

---
*Last updated: 2026-05-04*