2.3 KiB
2.3 KiB
id: DATA-IDX-001 category: Dev confidence_score: 1.0 tags: [database, data-engineering, indexing, Search-engine, vector-database, Scalability] last_reinforced: 2026-04-26
Indexing Strategies (인덱싱 전략)
📌 한 줄 통찰 (The Karpathy Summary)
"데이터를 무작정 쌓지 말고, 정교한 지도를 그려 검색의 비용을 최소화하라" — 방대한 데이터셋에서 특정 정보를 신속하게 찾기 위해 별도의 최적화된 자료구조(Index)를 구축하고 운영하는 기술 전략.
📖 구조화된 지식 (Synthesized Content)
- 추출된 패턴: "Space-Time Trade-off" — 추가적인 저장 공간(Index)을 사용하여 데이터 접근 시간(Search Time)을 획기적으로 단축시키는 효율성 극대화 패턴.
- 주요 인덱싱 기법:
- B-Tree / B+Tree: 범위 검색에 강하며 대부분의 관계형 DB에서 표준으로 사용.
- Hash Index: 정확한 키 일치 검색에서 최강의 성능(
O(1))을 발휘. - Inverted Index (역색인): 텍스트 검색 엔진(Lucene, Elasticsearch)의 핵심. 단어가 포함된 문서를 즉시 추적.
- Vector Indexing (HNSW, IVFFlat): AI의 임베딩 벡터 간 유사도를 빠르게 계산하기 위한 고차원 공간 인덱싱.
- 의의: 시스템의 규모가 커질수록 인덱싱 전략이 전체 아키텍처의 성능과 사용자 경험을 결정짓는 핵심 요소가 됨.
⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- 과거 데이터와의 충돌: 정적인 텍스트 인덱싱 중심에서, 이제는 의미론적 검색을 위한 벡터 인덱싱과 실시간 업데이트가 가능한 동적 인덱싱이 AI 시스템의 필수 조건으로 부상함.
- 정책 변화: Antigravity 프로젝트는 1,174개의 위키 문서와 수만 개의 로우 데이터를 연결하기 위해, 역색인(키워드)과 벡터 인덱스(의미)를 결합한 하이브리드 인덱싱 전략을 사용하여 검색의 정확도와 속도를 동시에 확보함.
🔗 지식 연결 (Graph)
- Hash-Functions-and-Maps, Vector-Database-Foundations,_system-Design-for-AI-Scale, Search-Algorithms
- Raw Source: 10_Wiki/Topics/AI/Indexing-Strategies.md