Similarity-Metrics

📌 한 줄 통찰 (The Karpathy Summary)

"데이터 사이의 거리 측정법: 서로 다른 두 정보가 얼마나 닮았는지를 수학적으로 정의하여, 추천 시스템과 검색 엔진이 '비슷한 것'을 찾아낼 수 있게 하는 지능의 척도."

유사도 측정 지표(Similarity Metrics)는 벡터 공간에 표현된 데이터 객체 간의 거리나 상관관계를 정량화하는 수학적 방법론입니다.

핵심 지표 (Core Metrics):
- Cosine Similarity: 두 벡터 사이의 각도를 측정. 텍스트 데이터처럼 크기(Magnitude)보다 방향성이 중요할 때 주로 사용.
- Euclidean Distance: 공간상의 직선거리. 데이터의 절대적인 값이 중요할 때 사용.
- Manhattan Distance: 격자 모양의 경로 거리 (L1 Norm).
- Jaccard Similarity: 집합 간의 교집합 비중을 측정. 범주형 데이터 비교에 적합.
활용 분야:
- RAG (검색 증강 생성): 질문과 가장 유사한 지식 조각을 벡터 DB에서 찾는 핵심 알고리즘.
- Recommender Systems: 내가 본 영화와 가장 '유사한' 취향의 영화 추천.
- Anomaly Detection: 다른 데이터들과의 거리가 너무 먼 '이상치' 식별.
선택 기준:
- 데이터의 차원수, 정규화 여부, 비즈니스 목적에 따라 적절한 지표 선택이 시스템 성능을 좌우함.

과거 데이터와의 충돌: 과거에는 단순한 거리 측정만으로 충분했으나, 고차원 데이터가 폭증하며 '차원의 저주' 문제가 발생. 이에 따라 단순히 가깝다고 비슷한 것이 아니라 의미적으로 유사한지를 파악하는 '임베딩 기반 유사도'로 정책이 이동함(RL Update).
정책 변화(RL Update): 개인화 추천 정책 수립 시, 단순히 과거 유사도만 따지는 것이 아니라 유저의 '의도 변화'를 실시간 반영하는 가변적 유사도 가중치 정책이 표준화됨.

Vector Semantics, RAG (검색 증강 생성), Statistics & Data Analysis, Information Extraction (IE), Principles-of-Data-Connect
Modern Tech/Tools: Faiss (Facebook AI Similarity Search), Scipy Spatial, Pinecone.