# [[TF-IDF]] ## πŸ“Œ Brief Summary TF-IDF(Term Frequency-Inverse Document Frequency)λŠ” 전톡적인 ν‚€μ›Œλ“œ 검색 및 μ–΄νœ˜ 검색(Lexical Search)μ—μ„œ 검색 κ΄€λ ¨μ„±(Relevance)을 κ³„μ‚°ν•˜λŠ” 데 μ‚¬μš©λ˜λŠ” μ£Όμš” μ•Œκ³ λ¦¬μ¦˜μ΄λ‹€ [1-3]. 이 μ§€ν‘œλŠ” λ‹¨μ–΄μ˜ λΉˆλ„μ™€ λ¬Έμ„œ ꡬ쑰λ₯Ό 기반으둜 검색 결과의 μˆœμœ„λ₯Ό λ§€κΈ°λ©°, κ΄€λ ¨ μžˆλŠ” 단어와 κ·Έλ ‡μ§€ μ•Šμ€ 단어λ₯Ό κ΅¬λ³„ν•˜λŠ” 역할을 μˆ˜ν–‰ν•œλ‹€ [2, 4]. λ˜ν•œ λž­ν‚Ή ν•™μŠ΅(Learning to rank) λ“±μ˜ μ‹œμŠ€ν…œμ—μ„œ λ¬Έμ„œμ™€ 질의 λ‚΄μš©μ— λͺ¨λ‘ μ˜μ‘΄ν•˜λŠ” 동적(Dynamic) ν”Όμ²˜λ‘œλ„ ν™œμš©λœλ‹€ [5, 6]. ## πŸ“– Core Content * **ν‚€μ›Œλ“œ κ²€μƒ‰μ˜ 핡심 μ•Œκ³ λ¦¬μ¦˜**: 전톡적인 ν‚€μ›Œλ“œ 검색 μ‹œμŠ€ν…œμ€ 역색인(Inverted indexes) ꡬ쑰λ₯Ό μ‚¬μš©ν•˜μ—¬ μš©μ–΄λ₯Ό λ¬Έμ„œμ— λ§€ν•‘ν•˜λ©°, μ΄λ•Œ TF-IDFλŠ” BM25와 ν•¨κ»˜ μš©μ–΄ λΉˆλ„λ₯Ό 기반으둜 검색 결과의 μˆœμœ„λ₯Ό λ§€κΈ°λŠ” λŒ€ν‘œμ μΈ λž­ν‚Ή μ•Œκ³ λ¦¬μ¦˜μœΌλ‘œ μž‘λ™ν•œλ‹€ [2, 3]. * **λ‹¨μ–΄μ˜ κ΄€λ ¨μ„± ꡬ별**: TF-IDF 기법은 검색 μ‹œ 관련성이 높은 단어(relevant words)와 관련이 μ—†λŠ” 단어(non-relevant words)λ₯Ό κ΅¬λ³„ν•˜κ³  ν•„ν„°λ§ν•˜λŠ” 데 μœ μš©ν•˜κ²Œ 쓰인닀 [4]. * **쿼리 의쑴적 ν”Όμ²˜(Query-dependent Feature) ν™œμš©**: λ¨Έμ‹ λŸ¬λ‹μ„ ν™œμš©ν•œ λž­ν‚Ή ν•™μŠ΅(Learning to rank) λͺ¨λΈμ—μ„œ TF-IDF μ μˆ˜λŠ” 쿼리와 λ¬Έμ„œ λ‚΄μš© μ–‘μͺ½ λͺ¨λ‘μ— μ˜μ‘΄ν•˜λŠ” 동적 κΈ°λŠ₯(Dynamic feature)으둜 λΆ„λ₯˜λœλ‹€ [5]. νŠΉμ • μ§ˆμ˜κ°€ μ£Όμ–΄μ‘Œμ„ λ•Œ λ¬Έμ„œμ˜ λ‹€μ–‘ν•œ μ˜μ—­(제λͺ©, λ³Έλ¬Έ, 액컀 ν…μŠ€νŠΈ, URL λ“±)에 λŒ€ν•œ TF-IDF 점수λ₯Ό μΈ‘μ •ν•˜μ—¬ ν”Όμ²˜ 벑터(Feature vector)둜 ν™œμš©ν•œλ‹€ [6]. ## βš–οΈ Trade-offs & Caveats TF-IDF와 같은 μ•Œκ³ λ¦¬μ¦˜μ„ μ‚¬μš©ν•˜λŠ” ν‚€μ›Œλ“œ 기반 검색은 λ‹¨μ–΄μ˜ ν‘œλ©΄μ  μΌμΉ˜λ‚˜ λΉˆλ„μ— 크게 μ˜μ‘΄ν•˜κΈ° λ•Œλ¬Έμ—, μ–Έμ–΄μ˜ 본질적인 λͺ¨ν˜Έμ„±μ΄λ‚˜ μ‚¬μš©μž 질의의 μˆ¨κ²¨μ§„ μ˜λ„(Intent)와 λ§₯락(Context)을 νŒŒμ•…ν•˜λŠ” λ°λŠ” 근본적인 ν•œκ³„κ°€ μ‘΄μž¬ν•œλ‹€ [3, 7, 8]. ν˜•νƒœλŠ” λ‹€λ₯΄μ§€λ§Œ μ˜λ―Έκ°€ 같은 λ™μ˜μ–΄λ‚˜ κ°œλ…μ  μœ μ‚¬μ„±μ„ ν¬μ°©ν•˜λŠ” κΈ°λŠ₯이 λΆ€μ‘±ν•˜μ—¬, μ’…μ’… μ ν•©ν•œ 정보λ₯Ό λˆ„λ½ν•˜κ±°λ‚˜ μ›μΉ˜ μ•ŠλŠ” κ²°κ³Όλ₯Ό λ„μΆœν•  수 μžˆλ‹€ [1, 3, 7]. λ”°λΌμ„œ λͺ¨ν˜Έν•˜κ³  κ΄‘λ²”μœ„ν•œ μ§ˆμ˜λ‚˜ λ¬Έλ§₯ 이해가 ν•„μˆ˜μ μΈ 검색 ν™˜κ²½μ—μ„œλŠ” 벑터 기반의 의미둠적 검색(Semantic Search) 방식보닀 μ •ν™•λ„λ‚˜ μœ μ—°μ„±μ΄ λ–¨μ–΄μ§€λŠ” λ°˜λŒ€ κΈ‰λΆ€λ₯Ό κ°–λŠ”λ‹€ [1, 3, 7, 8]. --- *Last updated: 2026-05-04*