2nd/01_Archive/2026-05-04/TF-IDF.md

# [[TF-IDF]]

## 📌 Brief Summary
TF-IDF(Term Frequency-Inverse Document Frequency)는 전통적인 키워드 검색 및 어휘 검색(Lexical Search)에서 검색 관련성(Relevance)을 계산하는 데 사용되는 주요 알고리즘이다 [1-3]. 이 지표는 단어의 빈도와 문서 구조를 기반으로 검색 결과의 순위를 매기며, 관련 있는 단어와 그렇지 않은 단어를 구별하는 역할을 수행한다 [2, 4]. 또한 랭킹 학습(Learning to rank) 등의 시스템에서 문서와 질의 내용에 모두 의존하는 동적(Dynamic) 피처로도 활용된다 [5, 6].

## 📖 Core Content
* **키워드 검색의 핵심 알고리즘**: 전통적인 키워드 검색 시스템은 역색인(Inverted indexes) 구조를 사용하여 용어를 문서에 매핑하며, 이때 TF-IDF는 BM25와 함께 용어 빈도를 기반으로 검색 결과의 순위를 매기는 대표적인 랭킹 알고리즘으로 작동한다 [2, 3].
* **단어의 관련성 구별**: TF-IDF 기법은 검색 시 관련성이 높은 단어(relevant words)와 관련이 없는 단어(non-relevant words)를 구별하고 필터링하는 데 유용하게 쓰인다 [4].
* **쿼리 의존적 피처(Query-dependent Feature) 활용**: 머신러닝을 활용한 랭킹 학습(Learning to rank) 모델에서 TF-IDF 점수는 쿼리와 문서 내용 양쪽 모두에 의존하는 동적 기능(Dynamic feature)으로 분류된다 [5]. 특정 질의가 주어졌을 때 문서의 다양한 영역(제목, 본문, 앵커 텍스트, URL 등)에 대한 TF-IDF 점수를 측정하여 피처 벡터(Feature vector)로 활용한다 [6].

## ⚖️ Trade-offs & Caveats
TF-IDF와 같은 알고리즘을 사용하는 키워드 기반 검색은 단어의 표면적 일치나 빈도에 크게 의존하기 때문에, 언어의 본질적인 모호성이나 사용자 질의의 숨겨진 의도(Intent)와 맥락(Context)을 파악하는 데는 근본적인 한계가 존재한다 [3, 7, 8]. 형태는 다르지만 의미가 같은 동의어나 개념적 유사성을 포착하는 기능이 부족하여, 종종 적합한 정보를 누락하거나 원치 않는 결과를 도출할 수 있다 [1, 3, 7]. 따라서 모호하고 광범위한 질의나 문맥 이해가 필수적인 검색 환경에서는 벡터 기반의 의미론적 검색(Semantic Search) 방식보다 정확도나 유연성이 떨어지는 반대 급부를 갖는다 [1, 3, 7, 8].

---
*Last updated: 2026-05-04*