2nd/01_Archive/2026-05-04/정보 검색 평가 지표 (Information Retrieval Evaluation Metrics).md

# [[정보 검색 평가 지표 (Information Retrieval Evaluation Metrics)]]

## 📌 Brief Summary
정보 검색 평가 지표는 머신러닝 기반 랭킹(MLR) 알고리즘이나 검색 시스템이 주어진 질의에 대해 관련 문서를 얼마나 잘 검색하고 순위를 매기는지 판단하는 척도입니다 [1-3]. 이 지표들은 학습 데이터에 대한 알고리즘의 성능을 평가하고 다양한 모델들 간의 성능을 비교하는 데 사용됩니다 [3]. 대표적인 지표로는 MAP, NDCG, 정밀도(Precision), 재현율(Recall) 등이 있으며, 랭킹 모델의 최적화 목표로 설정되거나 RAG 시스템의 검색 품질을 측정하는 데 필수적으로 활용됩니다 [1, 3-5].

## 📖 Core Content
*   **이진 판단 지표 (Binary Judgment Metrics)**
    관련성을 '관련 있음'과 '관련 없음'의 이진 기준으로 평가할 때 사용됩니다 [6]. 주요 지표로는 평균 정밀도(Mean Average Precision, MAP), 평균 역순위(Mean Reciprocal Rank, MRR), 정밀도(Precision), 재현율(Recall), F1-score 등이 있습니다 [3, 4, 6]. 특정 상위 n개의 문서만 평가할 때는 Precision@n과 같은 방식을 사용합니다 [3].
*   **다중 수준 관련성 지표 (Multi-level Relevance Metrics)**
    문서의 관련성이 여러 등급으로 나뉠 때 주로 사용되며 학술 연구에서 선호되는 지표들입니다 [6]. DCG(Discounted Cumulative Gain) 및 이를 정규화한 NDCG(Normalized DCG), 상위 n개만 평가하는 NDCG@n 등이 포함됩니다 [3]. 학습 기반 랭킹(LTR) 알고리즘은 일반적으로 판단 리스트(Judgment list)를 바탕으로 nDCG나 MAP 같은 지표를 최적화하는 것을 목표로 훈련됩니다 [1].
*   **상관관계 및 기타 척도 (Correlation Metrics)**
    켄달의 타우(Kendall's tau)와 스피어만 상관계수(Spearman's rho) 역시 랭킹 품질을 측정하는 데 사용됩니다 [3].
*   **사용자 만족도 모델링 지표**
    DCG보다 사용자의 실제 만족도를 더 잘 모델링하기 위해 고안된 지표로 예상 역순위(Expected Reciprocal Rank, ERR)와 얀덱스(Yandex)의 pfound가 있습니다 [6]. 이 지표들은 사용자가 덜 관련 있는 문서보다 더 관련 있는 문서를 확인한 후 검색 결과 탐색을 중단할 가능성이 높다는 가정에 기반하여 설계되었습니다 [6].
*   **RAG 시스템에서의 검색 평가**
    RAG(검색 증강 생성) 파이프라인의 평가는 검색된 문서가 관련성이 있는지 측정하는 '컨텍스트 정밀도(Context Precision)'와 모든 관련 정보를 찾았는지 측정하는 '컨텍스트 재현율(Context Recall)' 지표를 통해 검색의 품질 차원(Retrieval dimensions)을 점검합니다 [5].

## ⚖️ Trade-offs & Caveats
*   **이진 평가의 제약**
    MAP, MRR, 정밀도(Precision)와 같은 지표들은 이진 판단(Binary judgments) 환경에서만 정의되므로, 검색된 문서들 간의 미묘한 관련성 차이나 다중 등급(Multi-level)으로 나뉜 복잡한 관련성을 세밀하게 반영하고 측정하는 데에는 한계가 있습니다 [6].
*   **모델 최적화의 기술적 어려움 (Listwise 접근법)**
    랭킹 모델 학습 시 리스트 단위(Listwise) 알고리즘은 훈련 데이터의 모든 질의에 대해 평균화된 평가 지표 값을 직접 최적화하려고 시도합니다 [7]. 그러나 대부분의 평가 척도(예: NDCG 등)는 랭킹 모델의 매개변수(Parameter)와 관련하여 연속적인 함수(Continuous functions)가 아니기 때문에 직접적으로 최적화하기 매우 어렵다는 단점이 있습니다 [7]. 이 문제를 해결하기 위해서는 평가 지표에 대한 연속적인 근사치나 경계(Bounds)를 사용해야 하는 구조적 제약이 따릅니다 [7].
*   **비즈니스 성과와의 불일치(Mismatch)**
    평가 지표의 벤치마크 점수가 실제 비즈니스 성과나 사용자 만족도와 항상 직결되는 것은 아닙니다 [8]. 자동화된 평가 시스템이 벤치마크에서는 높은 점수를 기록하더라도 실제 현장의 문제를 해결하는 데는 실패할 수 있으며, 이로 인해 비즈니스 KPI와 일치하는 도메인 특화 평가 기준을 새롭게 정의하고, 자동화된 지표에 샘플 쿼리에 대한 인간의 평가(Human evaluation)를 결합해야 하는 추가적인 작업과 리소스가 필요합니다 [8].

---
*Last updated: 2026-05-04*