GloVe (Global Vectors for Word Representation)

📌 한 줄 통찰 (The Karpathy Summary)

"단어의 의미를 전체 말뭉치의 동시 출현 빈도로 정의하라" — 전역적인 단어-단어 동시 출현 행렬(Co-occurrence Matrix)의 통계 정보를 활용하여 단어를 고차원 벡터로 변환하는 임베딩 기법.

추출된 패턴: 단어 간의 공생 관계를 행렬 분해(Matrix Factorization)와 유사한 수치 해석적 방법으로 학습하여, 단어 사이의 의미적 거리와 유추 관계(Analogy)를 보존하는 패턴.
세부 내용:
- Global Statistics: 국소적인 문맥(Window)만 보는 Word2Vec과 달리, 말뭉치 전체의 통계 정보를 반영.
- Co-occurrence Probabilities: 두 단어가 함께 나타날 확률의 비율을 로그 모델로 학습하여 의미적 차이를 벡터 공간의 거리로 변환.
- Vector Arithmetic: 'King - Man + Woman = Queen'과 같은 의미적 유추가 벡터 연산으로 가능함.
- Pre-trained Embeddings: 방대한 텍스트(Wikipedia 등)로 미리 학습된 벡터를 제공하여 다양한 NLP 태스크의 기초 데이터로 활용.

과거 데이터와의 충돌: 워드 임베딩의 대세였으나, 문맥에 따라 단어의 의미가 변하는 동적 임베딩(BERT, GPT 등)이 등장하면서 정적 임베딩으로서의 한계가 명확해짐.
정책 변화: Antigravity 에이전트의 텍스트 분석 엔진은 기본적으로 트랜스포머 기반 임베딩을 사용하나, 가벼운 단어 유사도 비교나 전통적인 통계 분석 시에는 GloVe를 참고 지표로 활용함.