--- id: SEM-SEARCH-001 category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 1.0 tags: [ai, nlp, semantic-search, information-retrieval, vector-search] last_reinforced: 2026-04-26 --- # Semantic Search (의미 기반 검색) ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "단어가 μ•„λ‹Œ 'μ˜λ„'와 'λ§₯락'을 κ²€μƒ‰ν•˜λΌ" β€” λ‹¨μˆœν•œ ν‚€μ›Œλ“œ 맀칭을 λ„˜μ–΄ μ‚¬μš©μžμ˜ μ§ˆμ˜κ°€ κ°€μ§„ μ‹€μ œ μ˜λ―Έμ™€ 데이터 μ‚¬μ΄μ˜ κ°œλ…μ  μœ μ‚¬μ„±μ„ λΆ„μ„ν•˜μ—¬ κ°€μž₯ μ μ ˆν•œ κ²°κ³Όλ₯Ό λ„μΆœν•˜λŠ” 검색 기술. ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) - **μΆ”μΆœλœ νŒ¨ν„΄:** ν…μŠ€νŠΈλ₯Ό 고차원 벑터 κ³΅κ°„μ˜ 점(Embedding)으둜 λ³€ν™˜ν•˜μ—¬, ν‚€μ›Œλ“œκ°€ 달라도 의미적으둜 κ°€κΉŒμš΄(Vector Distanceκ°€ μž‘μ€) 데이터λ₯Ό μ°Ύμ•„λ‚΄λŠ” κ°œλ…μ  λ§€μΉ­ νŒ¨ν„΄. - **μ„ΈλΆ€ λ‚΄μš©:** - **Vector Embeddings:** λ¬Έμž₯의 의미λ₯Ό μˆ˜μΉ˜ν™”λœ λ²‘ν„°λ‘œ ν‘œν˜„ (예: BERT, Ada λ“± μ‚¬μš©). - **Similarity Measures:** 코사인 μœ μ‚¬λ„ 등을 톡해 두 벑터 μ‚¬μ΄μ˜ 거리와 λ°©ν–₯성을 계산. - **Intent Understanding:** μ‚¬μš©μžμ˜ 질문 μ˜λ„λ₯Ό νŒŒμ•…ν•˜μ—¬ κ΄€λ ¨ 지식을 μΆ”λ‘  (예: 'μ• ν”Œ' 검색 μ‹œ 과일인지 기업인지 λ¬Έλ§₯으둜 νŒλ‹¨). - **Hybrid Search:** 전톡적인 ν‚€μ›Œλ“œ 검색(BM25)κ³Ό 의미 기반 검색을 κ²°ν•©ν•˜μ—¬ 정확도와 포괄성을 λ™μ‹œμ— 확보. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌:** μ˜€νƒ€λ‚˜ λ™μ˜μ–΄ μ²˜λ¦¬κ°€ νž˜λ“€μ—ˆλ˜ ν‚€μ›Œλ“œ κ²€μƒ‰μ˜ ν•œκ³„λ₯Ό λ”₯λŸ¬λ‹ μž„λ² λ”© κΈ°μˆ μ„ 톡해 μ›μ²œμ μœΌλ‘œ ν•΄κ²°. - **μ •μ±… λ³€ν™”:** Antigravity ν”„λ‘œμ νŠΈμ˜ μœ„ν‚€ 검색 엔진은 기본적으둜 의미 기반 검색을 μˆ˜ν–‰ν•˜λ©°, 이λ₯Ό 톡해 μ‚¬μš©μžκ°€ λͺ¨ν˜Έν•˜κ²Œ μ§ˆλ¬Έν•΄λ„ μ •ν™•ν•œ μœ„ν‚€ λ¬Έμ„œλ₯Ό μ°Ύμ•„ 연결함. ## πŸ”— 지식 μ—°κ²° (Graph) - Word-Embeddings, Vector-Database, [[RAG|RAG]], NLP - **Raw Source:** 10_Wiki/Topics/AI/Semantic-Search.md