--- id: DATA-IDX-001 category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 1.0 tags: [database, data-engineering, indexing, search-engine, vector-database, scalability] last_reinforced: 2026-04-26 --- # Indexing Strategies (인덱싱 μ „λž΅) ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "데이터λ₯Ό λ¬΄μž‘μ • μŒ“μ§€ 말고, μ •κ΅ν•œ 지도λ₯Ό κ·Έλ € κ²€μƒ‰μ˜ λΉ„μš©μ„ μ΅œμ†Œν™”ν•˜λΌ" β€” λ°©λŒ€ν•œ λ°μ΄ν„°μ…‹μ—μ„œ νŠΉμ • 정보λ₯Ό μ‹ μ†ν•˜κ²Œ μ°ΎκΈ° μœ„ν•΄ λ³„λ„μ˜ μ΅œμ ν™”λœ 자료ꡬ쑰(Index)λ₯Ό κ΅¬μΆ•ν•˜κ³  μš΄μ˜ν•˜λŠ” 기술 μ „λž΅. ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) - **μΆ”μΆœλœ νŒ¨ν„΄:** "Space-Time Trade-off" β€” 좔가적인 μ €μž₯ 곡간(Index)을 μ‚¬μš©ν•˜μ—¬ 데이터 μ ‘κ·Ό μ‹œκ°„(Search Time)을 획기적으둜 λ‹¨μΆ•μ‹œν‚€λŠ” νš¨μœ¨μ„± κ·ΉλŒ€ν™” νŒ¨ν„΄. - **μ£Όμš” 인덱싱 기법:** - **B-Tree / B+Tree:** λ²”μœ„ 검색에 κ°•ν•˜λ©° λŒ€λΆ€λΆ„μ˜ κ΄€κ³„ν˜• DBμ—μ„œ ν‘œμ€€μœΌλ‘œ μ‚¬μš©. - **Hash Index:** μ •ν™•ν•œ ν‚€ 일치 κ²€μƒ‰μ—μ„œ μ΅œκ°•μ˜ μ„±λŠ₯($O(1)$)을 발휘. - **Inverted Index (역색인):** ν…μŠ€νŠΈ 검색 μ—”μ§„(Lucene, Elasticsearch)의 핡심. 단어가 ν¬ν•¨λœ λ¬Έμ„œλ₯Ό μ¦‰μ‹œ 좔적. - **Vector Indexing (HNSW, IVFFlat):** AI의 μž„λ² λ”© 벑터 κ°„ μœ μ‚¬λ„λ₯Ό λΉ λ₯΄κ²Œ κ³„μ‚°ν•˜κΈ° μœ„ν•œ 고차원 곡간 인덱싱. - **의의:** μ‹œμŠ€ν…œμ˜ 규λͺ¨κ°€ 컀질수둝 인덱싱 μ „λž΅μ΄ 전체 μ•„ν‚€ν…μ²˜μ˜ μ„±λŠ₯κ³Ό μ‚¬μš©μž κ²½ν—˜μ„ κ²°μ •μ§“λŠ” 핡심 μš”μ†Œκ°€ 됨. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌:** 정적인 ν…μŠ€νŠΈ 인덱싱 μ€‘μ‹¬μ—μ„œ, μ΄μ œλŠ” 의미둠적 검색을 μœ„ν•œ 벑터 인덱싱과 μ‹€μ‹œκ°„ μ—…λ°μ΄νŠΈκ°€ κ°€λŠ₯ν•œ 동적 인덱싱이 AI μ‹œμŠ€ν…œμ˜ ν•„μˆ˜ 쑰건으둜 뢀상함. - **μ •μ±… λ³€ν™”:** Antigravity ν”„λ‘œμ νŠΈλŠ” 1,174개의 μœ„ν‚€ λ¬Έμ„œμ™€ 수만 개의 둜우 데이터λ₯Ό μ—°κ²°ν•˜κΈ° μœ„ν•΄, 역색인(ν‚€μ›Œλ“œ)κ³Ό 벑터 인덱슀(의미)λ₯Ό κ²°ν•©ν•œ ν•˜μ΄λΈŒλ¦¬λ“œ 인덱싱 μ „λž΅μ„ μ‚¬μš©ν•˜μ—¬ κ²€μƒ‰μ˜ 정확도와 속도λ₯Ό λ™μ‹œμ— 확보함. ## πŸ”— 지식 μ—°κ²° (Graph) - [[Hash-Functions-and-Maps|Hash-Functions-and-Maps]], Vector-Database-Foundations, System-Design-for-AI-Scale, Search-Algorithms - **Raw Source:** 10_Wiki/Topics/AI/Indexing-Strategies.md