"매 가까운 점은 매 같은 bucket에 떨어진다". LSH는 매 metric similarity를 hash collision probability로 변환하여 매 sub-linear ANN(approximate nearest neighbor) search를 가능케 한다. 2026 vector DB 시대에 IVF-PQ·HNSW에 밀렸지만, 매 streaming dedup·document near-dup detection에서 매 dominant.
매 핵심
매 family들
MinHash (Jaccard): 매 set similarity — shingled documents.
SimHash (cosine): 매 random hyperplane projection.
p-stable LSH (L2): 매 random Gaussian projection + bucketing.
Cross-polytope LSH: 매 angular distance, 매 unit sphere 위.
매 amplification
AND-construction: 매 k hashes 모두 일치 → false positive ↓.
OR-construction: 매 L tables 중 하나라도 collision → recall ↑.