id: VEC-DB-001 category: "10_Wiki/💡 Topics/AI" confidence_score: 1.0 tags: [ai, infrastructure, vector-database, rag, Search-engine] last_reinforced: 2026-04-26

Vector Database Selection (벡터 DB 선정)

"데이터의 양, 속도, 예산에 맞는 최적의 '지식 저장소'를 선택하라" — RAG 아키텍처의 핵심인 벡터 임베딩 데이터를 저장하고 유사도 검색(ANN)을 수행하기 위한 DB 솔루션 비교 및 선정 기준.

추출된 패턴: 프로젝트의 확장성, 지연 시간(Latency) 요구사항, 기존 기술 스택과의 정합성을 고려하여 최적의 벡터 검색 엔진을 매칭하는 인프라 결정 패턴.
주요 비교군:
- Dedicated Vector DBs: Milvus, Pinecone, Weaviate, Qdrant. 고성능 전문 기능 제공.
- Integrated Solutions: pgvector (PostgreSQL), Elasticsearch/OpenSearch. 기존 DB에 벡터 검색 기능 추가. 관리가 용이함.
- Lightweight/Local: Chroma, FAISS. 프로토타이핑이나 엣지 환경에 적합.
선정 기준:
- Performance: 초당 쿼리 처리량(QPS) 및 검색 정확도(Recall).
- Scalability: 수억 건 이상의 데이터 처리 시 분산 클러스터링 지원 여부.
- Filtering: 속성 데이터(Metadata)와 벡터 검색을 동시에 지원하는지(Hybrid Search).
- Cloud vs On-premise: 관리형 서비스 선호 여부.

과거 데이터와의 충돌: 초기에는 FAISS와 같은 단순 라이브러리 위주였으나, 현대 RAG 시스템에서는 데이터 무결성과 메타데이터 필터링이 강조되며 전문 벡터 DB 서비스가 주류로 부상.
정책 변화: Antigravity 프로젝트는 초기 로컬 개발 시 Chroma를 사용하며, 대규모 지식 확장을 위해 pgvector 또는 Pinecone으로의 전환 시나리오를 설계함.

Retrieval-Augmented-Generation-RAG, Semantic-Search, LlamaIndex,_system-Design-for-AI-Scale
Raw Source: 10_Wiki/Topics/AI/Vector-Database Selection.md