Files
2nd/10_Wiki/Topics/AI_and_ML/Vector Databases & Search.md
T

2.6 KiB


id: P-Reinforce-AUTO-VDBS-001 category: Unified confidence_score: 1.00 tags: [auto-reinforced, vector-database, hnsw, indexing, semantic-search, similarity-search] last_reinforced: 2026-05-04

Vector Databases & Search

📌 한 줄 통찰 (The Karpathy Summary)

"의미의 도서관: 텍스트, 이미지, 오디오 등의 비정형 데이터를 수학적 좌표(Vector)로 변환하고, 수억 개의 데이터 중 가장 유사한 의미를 가진 정보를 수 밀리초 만에 찾아내는 현대 AI의 거대한 지식 저장소."

📖 구조화된 지식 (Synthesized Content)

벡터 데이터베이스는 데이터를 고차원 벡터로 인덱싱하여 빠른 유사도 검색(Similarity Search)을 가능하게 하는 시스템입니다.

  1. 핵심 작동 원리:
    • 임베딩 변환: 데이터를 Embedding Models를 통해 수천 차원의 벡터로 변환합니다.
    • 인덱싱 (Indexing): 검색 속도를 높이기 위해 데이터를 구조화합니다. (예: HNSW, IVF, PQ)
    • 유사도 계산: 코사인 유사도(Cosine Similarity)나 유클리디안 거리 등을 사용하여 쿼리와 가장 가까운 벡터들을 찾습니다.
  2. 주요 인덱싱 알고리즘 - HNSW:
    • 계층적 그래프: 데이터 포인트들을 계층적인 그래프 구조로 연결하여, '좁은 세상(Small World)' 네트워크 원리를 이용해 빠르게 목표에 도달합니다.
    • 특징: 메모리 사용량은 많지만 검색 속도와 정확도가 매우 뛰어나 대부분의 상용 벡터 DB의 표준으로 자리 잡았습니다.
  3. 대표적 솔루션:
    • 클라우드/매니지드: Pinecone, Weaviate, Qdrant.
    • 오픈소스/설치형: Milvus, ChromaDB, FAISS.

⚖️ Trade-offs & Caveats

  • 비용과 자원: 벡터 데이터와 인덱스를 메모리(RAM)에 올려두어야 성능이 나오기 때문에 인프라 비용이 높습니다.
  • 정확도와 속도의 절충: 완벽한 검색(Exact Search) 대신 근사 검색(ANN, Approximate Nearest Neighbor)을 사용하므로 100% 재현율을 보장하지는 않습니다.

🔗 지식 연결 (Graph)


Last updated: 2026-05-04