id, title, category, status, canonical_id, aliases, duplicate_of, source_trust_level, confidence_score, verification_status, tags, raw_sources, last_reinforced, github_commit, tech_stack
id
title
category
status
canonical_id
aliases
duplicate_of
source_trust_level
confidence_score
verification_status
tags
raw_sources
last_reinforced
github_commit
tech_stack
wiki-2026-0508-latent-semantic-analysis-lsa
Latent Semantic Analysis (LSA)
10_Wiki/Topics
verified
self
LSA
LSI
Latent Semantic Indexing
none
A
0.85
applied
nlp
ir
svd
tfidf
topic-modeling
embeddings
2026-05-10
pending
language
framework
Python
scikit-learn/gensim
Latent Semantic Analysis (LSA)
매 한 줄
"매 LSA = TF-IDF 행렬에 truncated SVD" . term-document을 저차원 latent semantic 공간에 투영해 동의어/다의어 부분 해소.
매 핵심
매 수학
A (m× n) = U Σ Vᵀ. truncated rank-k → A_k = U_k Σ_k V_kᵀ.
행 = term embedding, 열 = document embedding.
Cosine similarity in k-dim space → semantic similarity.
매 절차
Tokenize, stopword/lemma
TF-IDF 행렬 구축
Truncated SVD (k=100~300)
쿼리도 동일 공간 투영: q_k = qᵀ U_k Σ_k⁻¹
cosine으로 유사 문서 검색
매 강점/한계
✅ 작은 corpus, 빠름, 해석 가능
✅ 동의어 부분 처리 (synonymy)
❌ 다의어 약함 (polysemy): 한 단어 = 한 벡터
❌ 비음수성 X → 토픽 해석 어려움 (→ NMF, LDA)
❌ Out-of-vocabulary 학습 불가
❌ contextual 의미 X (→ BERT)
매 vs 동족
NMF : 비음수, 해석 ↑
LDA : 확률적 토픽 모델
word2vec/GloVe : 단어 단위 dense embedding
BERT/SBERT : contextual, SoTA
💻 패턴
scikit-learn LSA
Query → semantic search
gensim LSI
Topic 해석
Modern: BERT 대체
매 결정 기준
상황
Approach
빠른 baseline, 적은 자원
LSA
해석 가능 토픽
NMF, LDA
단어 의미 (sparse 분포)
word2vec/GloVe
Production semantic search
SBERT + FAISS
도메인 한정 corpus
LSA fine-tune or domain SBERT
기본값 : 신규 시스템은 SBERT. LSA는 baseline / 교육용 / 자원 제약.
🔗 Graph
🤖 LLM 활용
언제 : 빠른 baseline 구현, SVD 직관 설명.
언제 X : 현대 production 시스템 — SBERT/LLM embedding이 대부분 우수.
❌ 안티패턴
매우 큰 corpus에 dense SVD (메모리) — truncated/randomized 사용
TF-IDF 없이 raw count → 빈도 단어 dominate
k 너무 작거나 큼 (k=50~300, perplexity/downstream으로 튜닝)
BERT 시대에 LSA 단독 production
Query 정규화/stopword 학습과 다름
🧪 검증 / 중복
Verified (Deerwester 1990 LSI, scikit-learn/gensim docs). 신뢰도 A.
중복: 없음.
🕓 Changelog
날짜
변경
2026-05-08
Phase 1
2026-05-10
Manual cleanup — 매 prefix, BERT 대체 비교 추가