2nd/01_Archive/2026-05-04/nDCG (Normalized Discounted Cumulative Gain).md

# [[nDCG (Normalized Discounted Cumulative Gain)]]

## 📌 Brief Summary
nDCG(Normalized Discounted Cumulative Gain)는 정보 검색 시스템에서 검색 결과의 순위 품질을 평가하는 수학적 핵심 지표입니다 [1, 2]. 상위 검색 결과의 관련성 점수에 위치 기반 감쇠(Discount)를 적용한 값(DCG)을, 가장 이상적으로 정렬되었을 때의 값(IDCG)으로 나누어 산출합니다 [2]. 주로 문서의 관련성이 이진(Binary)이 아닌 여러 수준(Multiple levels)으로 나뉘어 평가될 때 학술 및 실무에서 선호되는 척도이며, 검색 엔진이 얼마나 관련성 높은 문서를 상단에 잘 배치했는지를 판단하는 데 사용됩니다 [1-3].

## 📖 Core Content
* **nDCG의 계산 원리와 구조:** nDCG는 상위 $p$개 결과의 관련성 점수를 기반으로 합니다. 위치 기반 감쇠(Position-based discount)를 적용한 점수의 합계인 $\text{DCG}_p$를 도출하고, 이를 이상적인 순위 배치일 때의 점수인 $\text{IDCG}_p$로 나누어 산출합니다($\text{nDCG}_p = \frac{\text{DCG}_p}{\text{IDCG}_p}$) [2]. 이를 통해 관련성이 높은 문서가 상단에 위치할수록 모델이 높은 평가를 받게 됩니다 [2].
* **다중 관련성 수준 적용:** 검색 결과의 관련성을 단순히 '관련 있음/없음'이 아닌 여러 수준(multiple levels of relevance)으로 사용할 경우, MAP(Mean Average Precision)나 단순 정밀도(Precision)보다 DCG 및 정규화된 nDCG가 더 선호됩니다 [1].
* **학습 기반 랭킹(Learning to Rank, LTR)에서의 활용:** 정보 검색에서 기계 학습 모델을 통해 랭킹을 최적화하는 LTR 시스템은 판단 리스트(judgment list)와 함께 검색 컨텍스트를 받아 문서를 정렬하는데, 이때 nDCG가 주요 최적화 목표(objective)로 사용됩니다 [3].
* **Listwise 접근법의 타깃 지표:** LTR의 여러 방식 중 검색 결과 리스트 전체의 순위를 한꺼번에 최적화하는 Listwise Approach에서는 nDCG나 MAP를 직접적인 최적화 목표로 삼으며, 이 방식이 가장 우수한 성능을 보이는 경우가 많습니다 [4]. NDCG 최적화를 목표로 고안된 'NDCG Boost'나 관련 모델인 'BayesRank' 등이 대표적입니다 [5].

## ⚖️ Trade-offs & Caveats
* **사용자 행동 모델링의 한계:** nDCG가 평가 지표로 널리 쓰이고 있지만, "사용자가 더 관련성 있는 문서를 확인한 후에는 검색 결과 탐색을 중단할 가능성이 높다"는 실제 사용자 만족도 가정을 완벽히 반영하지 못한다는 지적이 있습니다 [1]. 이를 보완하기 위해 ERR(Expected Reciprocal Rank)이나 pfound와 같은 대안 지표들이 제안되기도 했습니다 [1].
* **직접적인 최적화의 기술적 어려움:** Listwise 모델에서 nDCG와 같은 평가 척도를 알고리즘이 직접 최적화하는 것은 실무적으로 매우 까다롭습니다. 대부분의 랭킹 평가 지표들은 모델의 매개변수에 대해 연속적인 함수(continuous functions)가 아니기 때문입니다 [6]. 따라서 실제 적용 시에는 SoftRank와 같이 연속적인 근사치를 사용하거나, LambdaMART와 같이 경험적으로 Listwise 목적 함수를 근사하는 최적화 우회 기법이 동원되어야 하는 제약이 따릅니다 [6].

## 🔗 Knowledge Connections

### Related Concepts

#### [평가 지표 (Evaluation Metrics)]
- [[MAP (Mean Average Precision)]]
  - 연결 이유: nDCG와 함께 랭킹 알고리즘의 주요 평가 및 최적화 목표로 사용되는 지표입니다 [3, 4].
  - 이 개념을 통해 더 깊게 이해할 수 있는 부분: 이진 판단(binary judgments)에 한정된 MAP와 다중 관련성 수준을 평가할 수 있는 nDCG의 차이점을 대조하여 검색 정교함 평가 방법의 발전 과정을 이해할 수 있습니다 [1].
- [[ERR (Expected Reciprocal Rank)]]
  - 연결 이유: DCG 및 nDCG 지표의 한계를 보완하기 위해 제안된 새로운 평가 지표입니다 [1].
  - 이 개념을 통해 더 깊게 이해할 수 있는 부분: 실제 사용자가 관련성 높은 문서를 발견했을 때 탐색을 멈추는 만족도(Satisfaction) 모델링을 nDCG가 놓치는 부분을 보완하는 방식을 이해할 수 있습니다 [1].

#### [랭킹 최적화 모델링 (Ranking Optimization Modeling)]
- [[Learning to Rank (LTR)]]
  - 연결 이유: nDCG가 최적화의 목표로 직접적으로 쓰이는 머신러닝 기반 랭킹 시스템입니다 [3].
  - 이 개념을 통해 더 깊게 이해할 수 있는 부분: 판단 리스트(judgment list)와 피처(feature)를 결합하여 nDCG 점수를 높이는 방향으로 모델이 훈련되는 정보 검색의 기계 학습 파이프라인을 파악할 수 있습니다 [7, 8].
- [[Listwise Approach]]
  - 연결 이유: LTR 방법론 중, nDCG와 같은 리스트 전체의 순위 지표를 직접적인 최적화 목표로 삼는 접근법입니다 [4].
  - 이 개념을 통해 더 깊게 이해할 수 있는 부분: Pointwise나 Pairwise 접근법과 달리 왜 검색 결과 리스트 전체를 한 번에 평가하는 Listwise 방식이 nDCG 최적화에 가장 적합한지 원리를 파악할 수 있습니다 [4, 6].

### Deeper Research Questions
- nDCG 수식에서 적용되는 위치 기반 감쇠(position-based discount) 곡선이 모바일과 데스크톱 등 환경별 실제 사용자의 시선 이동이나 스크롤 행동을 얼마나 정확하게 반영하는가?
- LTR의 Listwise Approach에서 불연속적(non-continuous)인 nDCG 함수를 미분 가능한 형태로 근사(approximation)하여 손실 함수로 적용하는 최신 수학적 기법들은 무엇이 있는가?
- 검색 의도(Intent)가 단순 정보 조회(Informational)일 때와 트랜잭션(Transactional)일 때, nDCG와 ERR(Expected Reciprocal Rank) 중 어떤 지표가 사용자 만족도와 더 높은 상관관계를 가지는가?
- 다단계(Graded) 관련성 판단 시, 전문가가 레이블링한 데이터와 사용자 클릭 로그를 통해 자동으로 생성된 암묵적(implicit) 판단 리스트 간의 nDCG 스코어 차이는 어떻게 보정할 수 있는가?
- 대규모 엔터프라이즈 환경에서 쿼리당 nDCG를 실시간으로 모니터링하고 모델 드리프트(Model drift)를 감지하기 위한 시스템 파이프라인 아키텍처는 어떻게 설계되어야 하는가?

### Practical Application Contexts
- **Implementation:** 검색 엔진 시스템 구축 시, 새로 도입한 벡터 검색이나 하이브리드 검색 알고리즘이 기존 키워드 검색 대비 얼마나 랭킹 품질이 좋아졌는지 측정하는 핵심 코드 라이브러리로 nDCG를 구현하여 활용합니다 [1].
- **System Design:** LTR 모델 훈련을 위한 머신러닝 파이프라인 설계 시, Loss function 혹은 평가 척도로 nDCG를 세팅하여 검색 알고리즘이 문서 리스트를 가장 관련성 높은 순서대로 출력하도록 설계합니다 [3, 4].
- **Operation / Maintenance:** 운영 중인 검색 서비스에서 사용자 행동 데이터(클릭률, 체류 시간 등)를 수집하여 판단 리스트를 업데이트하고 주기적으로 nDCG 점수를 산출하여 랭킹 알고리즘의 노후화(Decay)를 진단합니다 [7].
- **Learning Path:** 검색 엔진과 정보 검색(IR)의 기초를 학습한 후, 모델의 성과를 정량화하는 방법을 배울 때 이진 평가(Precision/Recall)를 넘어 다단계 관련성 기반의 검색 품질을 측정하는 심화 개념으로 학습합니다.
- **My Project Relevance:** '검색의 정교함' 향상 프로젝트에서, 다양한 검색 연산자, 의미론적 검색, RAG(Retrieval-Augmented Generation) 도입 후 랭킹 최적화가 성공적으로 이루어졌는지 수치적으로 증명할 KPI(핵심 성과 지표)로 활용됩니다.

### Adjacent Topics
- [[Information Retrieval (IR)]]
  - 확장 방향: nDCG 지표가 사용되는 더 큰 기술적 범주로, 데이터를 색인하고 수집하여 검색 결과를 내놓는 전반적인 검색 엔진의 메커니즘으로 지식을 확장할 수 있습니다 [9, 10].
- [[RAG (Retrieval-Augmented Generation)]]
  - 확장 방향: 검색의 정교함을 높이기 위해 단순 랭킹 최적화를 넘어, 검색된 문서를 바탕으로 LLM이 답을 생성하는 최신 트렌드와 그 과정에서의 검색 퀄리티(재순위화 등) 측정 방법으로 확장할 수 있습니다 [11, 12].

---
*Last updated: 2026-05-04*