2nd/01_Archive/2026-05-04/Vector Search.md

# [[Vector Search]]

## 📌 Brief Summary
Vector Search(벡터 검색)는 텍스트, 이미지, 오디오 등의 데이터를 다차원 벡터 공간의 수치(임베딩)로 변환하여 의미와 문맥적 유사성을 바탕으로 정보를 검색하는 기술이다 [1-4]. 단순한 키워드 일치가 아닌 데이터의 내재적 특성과 의미를 파악함으로써, 동의어나 모호한 질의에 대해서도 사용자의 의도를 반영한 정확한 결과를 제공한다 [1, 3, 5]. 인공지능(AI) 신경망 및 머신러닝 모델을 활용하며, 검색 엔진, 추천 시스템, 이상 탐지 등 다양한 최신 애플리케이션의 핵심 기반으로 자리 잡고 있다 [3, 6, 7].

## 📖 Core Content
* **벡터 임베딩과 의미적 이해 (Vector Embeddings & Semantic Understanding)**: 데이터는 트랜스포머(Transformer)와 같은 딥러닝 모델(예: BERT, OpenAI 임베딩 등)을 통해 고차원 벡터로 변환된다 [2, 3, 8, 9]. 이 벡터들은 데이터의 속성, 맥락, 의미를 담고 있는 숫자 배열로, 의미적으로 유사한 개체일수록 다차원 벡터 공간에서 서로 가까운 위치에 배치된다 [2, 3, 10]. 이를 통해 사용자가 특정 단어를 입력하더라도, 시스템은 단어 자체를 넘어 그에 내포된 의미와 유사한 다른 단어나 개념까지 유연하게 포착할 수 있다 [1, 3, 11].
* **유사도 검색 알고리즘 (Similarity Search Algorithms)**: 벡터 검색은 쿼리 벡터와 문서 벡터 간의 거리를 수학적으로 계산하여 가장 가까운 항목(Nearest Neighbor)을 찾는다 [2, 3]. 대표적인 거리 측정 방식으로 코사인 유사도(Cosine Similarity)와 유클리드 거리(Euclidean Distance)가 사용되며 [2, 3, 12, 13], 고속의 근사 최근접 이웃(ANN) 탐색을 위해 HNSW, IVF, LSH, PQ 등의 특화된 벡터 인덱싱 구조가 적용된다 [3, 14-16].
* **활용 분야 및 이점 (Use Cases & Benefits)**: 벡터 검색은 전통적인 키워드 검색의 한계를 극복하여 비정형 데이터 검색이나 자연어 질의 처리에 탁월하다 [17, 18]. 온라인 소매업의 개인화된 상품 추천, 미디어 콘텐츠 디스커버리, 이상 탐지(사기 탐지, 품질 관리) 등에 폭넓게 사용되며 [19-21], 최근에는 검색 증강 생성(RAG) 파이프라인에서 대규모 언어 모델(LLM)에 정확한 문맥 데이터를 제공하는 필수적인 역할도 수행하고 있다 [6, 22, 23].

## ⚖️ Trade-offs & Caveats
* **높은 컴퓨팅 리소스 및 복잡성**: 벡터 검색은 단순한 질의의 경우 전통적인 키워드 검색보다 속도가 느릴 수 있으며, 구현이 복잡하고 고차원 데이터를 다루기 위해 더 많은 컴퓨팅 리소스와 메모리가 요구된다 [14, 17, 24]. 특히 차원이 증가할수록 벡터 거리를 계산하는 비용이 상승하여 검색 성능이 저하되는 "차원의 저주(Curse of dimensionality)" 현상이 발생할 수 있다 [25].
* **의미론적 간극(Semantic Gap)과 벡터 품질**: 실제 데이터의 속성과 이를 표현하는 벡터 사이에 차이가 발생할 수 있다 [25]. 벡터화 과정의 한계나 사용된 머신러닝 모델의 종류에 따라 의미적으로 유사한 항목들이 다른 벡터 위치에 매핑될 위험이 있으며, 결과적으로 벡터의 품질은 원본 모델의 성능에 크게 의존하게 된다 [25].
* **콜드 스타트(Cold Start) 문제**: 새로운 항목이 데이터 세트에 추가되었을 때, 이 항목에 대한 명확한 벡터 표현이나 유사도 계산을 위한 충분한 데이터가 부족할 경우 시스템이 유사 항목을 정확히 식별하기 어렵다 [25].
* **가비지 컬렉션(Garbage Collection)의 어려움**: 관계형 데이터베이스와 달리, 객체나 값이 변경될 때 사용되지 않는 오래된 정보를 벡터 인덱스에서 효율적으로 제거하고 관리하는 것은 벡터 검색에서 지속적인 기술적 난제이다 [25].
* **해석 가능성(Interpretability)의 한계**: 벡터 표현은 사람이 직관적으로 이해하기 어려운 숫자의 배열이므로, 검색 시스템이 왜 특정 항목들을 유사하다고 판단했는지 명확하게 설명하기 어렵다 [25]. 이는 의료나 법률 등 AI 판단의 근거와 설명 가능성이 중요한 분야에서 뚜렷한 제약으로 작용할 수 있다 [25].

---
*Last updated: 2026-05-04*