# [[Vector Search]] ## πŸ“Œ Brief Summary Vector Search(벑터 검색)λŠ” ν…μŠ€νŠΈ, 이미지, μ˜€λ””μ˜€ λ“±μ˜ 데이터λ₯Ό 닀차원 벑터 κ³΅κ°„μ˜ 수치(μž„λ² λ”©)둜 λ³€ν™˜ν•˜μ—¬ μ˜λ―Έμ™€ λ¬Έλ§₯적 μœ μ‚¬μ„±μ„ λ°”νƒ•μœΌλ‘œ 정보λ₯Ό κ²€μƒ‰ν•˜λŠ” κΈ°μˆ μ΄λ‹€ [1-4]. λ‹¨μˆœν•œ ν‚€μ›Œλ“œ μΌμΉ˜κ°€ μ•„λ‹Œ λ°μ΄ν„°μ˜ λ‚΄μž¬μ  νŠΉμ„±κ³Ό 의미λ₯Ό νŒŒμ•…ν•¨μœΌλ‘œμ¨, λ™μ˜μ–΄λ‚˜ λͺ¨ν˜Έν•œ μ§ˆμ˜μ— λŒ€ν•΄μ„œλ„ μ‚¬μš©μžμ˜ μ˜λ„λ₯Ό λ°˜μ˜ν•œ μ •ν™•ν•œ κ²°κ³Όλ₯Ό μ œκ³΅ν•œλ‹€ [1, 3, 5]. 인곡지λŠ₯(AI) 신경망 및 λ¨Έμ‹ λŸ¬λ‹ λͺ¨λΈμ„ ν™œμš©ν•˜λ©°, 검색 μ—”μ§„, μΆ”μ²œ μ‹œμŠ€ν…œ, 이상 탐지 λ“± λ‹€μ–‘ν•œ μ΅œμ‹  μ• ν”Œλ¦¬μΌ€μ΄μ…˜μ˜ 핡심 기반으둜 자리 작고 μžˆλ‹€ [3, 6, 7]. ## πŸ“– Core Content * **벑터 μž„λ² λ”©κ³Ό 의미적 이해 (Vector Embeddings & Semantic Understanding)**: λ°μ΄ν„°λŠ” 트랜슀포머(Transformer)와 같은 λ”₯λŸ¬λ‹ λͺ¨λΈ(예: BERT, OpenAI μž„λ² λ”© λ“±)을 톡해 고차원 λ²‘ν„°λ‘œ λ³€ν™˜λœλ‹€ [2, 3, 8, 9]. 이 벑터듀은 λ°μ΄ν„°μ˜ 속성, λ§₯락, 의미λ₯Ό λ‹΄κ³  μžˆλŠ” 숫자 λ°°μ—΄λ‘œ, 의미적으둜 μœ μ‚¬ν•œ 개체일수둝 닀차원 벑터 κ³΅κ°„μ—μ„œ μ„œλ‘œ κ°€κΉŒμš΄ μœ„μΉ˜μ— λ°°μΉ˜λœλ‹€ [2, 3, 10]. 이λ₯Ό 톡해 μ‚¬μš©μžκ°€ νŠΉμ • 단어λ₯Ό μž…λ ₯ν•˜λ”λΌλ„, μ‹œμŠ€ν…œμ€ 단어 자체λ₯Ό λ„˜μ–΄ 그에 λ‚΄ν¬λœ μ˜λ―Έμ™€ μœ μ‚¬ν•œ λ‹€λ₯Έ λ‹¨μ–΄λ‚˜ κ°œλ…κΉŒμ§€ μœ μ—°ν•˜κ²Œ 포착할 수 μžˆλ‹€ [1, 3, 11]. * **μœ μ‚¬λ„ 검색 μ•Œκ³ λ¦¬μ¦˜ (Similarity Search Algorithms)**: 벑터 검색은 쿼리 벑터와 λ¬Έμ„œ 벑터 κ°„μ˜ 거리λ₯Ό μˆ˜ν•™μ μœΌλ‘œ κ³„μ‚°ν•˜μ—¬ κ°€μž₯ κ°€κΉŒμš΄ ν•­λͺ©(Nearest Neighbor)을 μ°ΎλŠ”λ‹€ [2, 3]. λŒ€ν‘œμ μΈ 거리 μΈ‘μ • λ°©μ‹μœΌλ‘œ 코사인 μœ μ‚¬λ„(Cosine Similarity)와 μœ ν΄λ¦¬λ“œ 거리(Euclidean Distance)κ°€ μ‚¬μš©λ˜λ©° [2, 3, 12, 13], κ³ μ†μ˜ 근사 μ΅œκ·Όμ ‘ 이웃(ANN) 탐색을 μœ„ν•΄ HNSW, IVF, LSH, PQ λ“±μ˜ νŠΉν™”λœ 벑터 인덱싱 ꡬ쑰가 μ μš©λœλ‹€ [3, 14-16]. * **ν™œμš© λΆ„μ•Ό 및 이점 (Use Cases & Benefits)**: 벑터 검색은 전톡적인 ν‚€μ›Œλ“œ κ²€μƒ‰μ˜ ν•œκ³„λ₯Ό κ·Ήλ³΅ν•˜μ—¬ λΉ„μ •ν˜• 데이터 κ²€μƒ‰μ΄λ‚˜ μžμ—°μ–΄ 질의 μ²˜λ¦¬μ— νƒμ›”ν•˜λ‹€ [17, 18]. 온라인 μ†Œλ§€μ—…μ˜ κ°œμΈν™”λœ μƒν’ˆ μΆ”μ²œ, λ―Έλ””μ–΄ μ½˜ν…μΈ  λ””μŠ€μ»€λ²„λ¦¬, 이상 탐지(사기 탐지, ν’ˆμ§ˆ 관리) 등에 ν­λ„“κ²Œ μ‚¬μš©λ˜λ©° [19-21], μ΅œκ·Όμ—λŠ” 검색 증강 생성(RAG) νŒŒμ΄ν”„λΌμΈμ—μ„œ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)에 μ •ν™•ν•œ λ¬Έλ§₯ 데이터λ₯Ό μ œκ³΅ν•˜λŠ” ν•„μˆ˜μ μΈ 역할도 μˆ˜ν–‰ν•˜κ³  μžˆλ‹€ [6, 22, 23]. ## βš–οΈ Trade-offs & Caveats * **높은 μ»΄ν“¨νŒ… λ¦¬μ†ŒμŠ€ 및 λ³΅μž‘μ„±**: 벑터 검색은 λ‹¨μˆœν•œ 질의의 경우 전톡적인 ν‚€μ›Œλ“œ 검색보닀 속도가 느릴 수 있으며, κ΅¬ν˜„μ΄ λ³΅μž‘ν•˜κ³  고차원 데이터λ₯Ό 닀루기 μœ„ν•΄ 더 λ§Žμ€ μ»΄ν“¨νŒ… λ¦¬μ†ŒμŠ€μ™€ λ©”λͺ¨λ¦¬κ°€ μš”κ΅¬λœλ‹€ [14, 17, 24]. 특히 차원이 μ¦κ°€ν• μˆ˜λ‘ 벑터 거리λ₯Ό κ³„μ‚°ν•˜λŠ” λΉ„μš©μ΄ μƒμŠΉν•˜μ—¬ 검색 μ„±λŠ₯이 μ €ν•˜λ˜λŠ” "μ°¨μ›μ˜ μ €μ£Ό(Curse of dimensionality)" ν˜„μƒμ΄ λ°œμƒν•  수 μžˆλ‹€ [25]. * **의미둠적 κ°„κ·Ή(Semantic Gap)κ³Ό 벑터 ν’ˆμ§ˆ**: μ‹€μ œ λ°μ΄ν„°μ˜ 속성과 이λ₯Ό ν‘œν˜„ν•˜λŠ” 벑터 사이에 차이가 λ°œμƒν•  수 μžˆλ‹€ [25]. 벑터화 κ³Όμ •μ˜ ν•œκ³„λ‚˜ μ‚¬μš©λœ λ¨Έμ‹ λŸ¬λ‹ λͺ¨λΈμ˜ μ’…λ₯˜μ— 따라 의미적으둜 μœ μ‚¬ν•œ ν•­λͺ©λ“€μ΄ λ‹€λ₯Έ 벑터 μœ„μΉ˜μ— 맀핑될 μœ„ν—˜μ΄ 있으며, 결과적으둜 λ²‘ν„°μ˜ ν’ˆμ§ˆμ€ 원본 λͺ¨λΈμ˜ μ„±λŠ₯에 크게 μ˜μ‘΄ν•˜κ²Œ λœλ‹€ [25]. * **μ½œλ“œ μŠ€νƒ€νŠΈ(Cold Start) 문제**: μƒˆλ‘œμš΄ ν•­λͺ©μ΄ 데이터 μ„ΈνŠΈμ— μΆ”κ°€λ˜μ—ˆμ„ λ•Œ, 이 ν•­λͺ©μ— λŒ€ν•œ λͺ…ν™•ν•œ 벑터 ν‘œν˜„μ΄λ‚˜ μœ μ‚¬λ„ 계산을 μœ„ν•œ μΆ©λΆ„ν•œ 데이터가 λΆ€μ‘±ν•  경우 μ‹œμŠ€ν…œμ΄ μœ μ‚¬ ν•­λͺ©μ„ μ •ν™•νžˆ μ‹λ³„ν•˜κΈ° μ–΄λ ΅λ‹€ [25]. * **κ°€λΉ„μ§€ μ»¬λ ‰μ…˜(Garbage Collection)의 어렀움**: κ΄€κ³„ν˜• λ°μ΄ν„°λ² μ΄μŠ€μ™€ 달리, κ°μ²΄λ‚˜ 값이 변경될 λ•Œ μ‚¬μš©λ˜μ§€ μ•ŠλŠ” 였래된 정보λ₯Ό 벑터 μΈλ±μŠ€μ—μ„œ 효율적으둜 μ œκ±°ν•˜κ³  κ΄€λ¦¬ν•˜λŠ” 것은 벑터 κ²€μƒ‰μ—μ„œ 지속적인 기술적 λ‚œμ œμ΄λ‹€ [25]. * **해석 κ°€λŠ₯μ„±(Interpretability)의 ν•œκ³„**: 벑터 ν‘œν˜„μ€ μ‚¬λžŒμ΄ μ§κ΄€μ μœΌλ‘œ μ΄ν•΄ν•˜κΈ° μ–΄λ €μš΄ 숫자의 λ°°μ—΄μ΄λ―€λ‘œ, 검색 μ‹œμŠ€ν…œμ΄ μ™œ νŠΉμ • ν•­λͺ©λ“€μ„ μœ μ‚¬ν•˜λ‹€κ³  νŒλ‹¨ν–ˆλŠ”μ§€ λͺ…ν™•ν•˜κ²Œ μ„€λͺ…ν•˜κΈ° μ–΄λ ΅λ‹€ [25]. μ΄λŠ” μ˜λ£Œλ‚˜ 법λ₯  λ“± AI νŒλ‹¨μ˜ 근거와 μ„€λͺ… κ°€λŠ₯성이 μ€‘μš”ν•œ λΆ„μ•Όμ—μ„œ λšœλ ·ν•œ μ œμ•½μœΌλ‘œ μž‘μš©ν•  수 μžˆλ‹€ [25]. --- *Last updated: 2026-05-04*