29 lines
2.0 KiB
Markdown
29 lines
2.0 KiB
Markdown
---
|
|
id: GLOVE-001
|
|
category: "10_Wiki/💡 Topics/AI"
|
|
confidence_score: 1.0
|
|
tags: [nlp, word-embeddings, ai-history, vectors]
|
|
last_reinforced: 2026-04-26
|
|
---
|
|
|
|
# GloVe (Global Vectors for Word Representation)
|
|
|
|
## 📌 한 줄 통찰 (The Karpathy Summary)
|
|
> "단어의 의미를 전체 말뭉치의 동시 출현 빈도로 정의하라" — 전역적인 단어-단어 동시 출현 행렬(Co-occurrence Matrix)의 통계 정보를 활용하여 단어를 고차원 벡터로 변환하는 임베딩 기법.
|
|
|
|
## 📖 구조화된 지식 (Synthesized Content)
|
|
- **추출된 패턴:** 단어 간의 공생 관계를 행렬 분해(Matrix Factorization)와 유사한 수치 해석적 방법으로 학습하여, 단어 사이의 의미적 거리와 유추 관계(Analogy)를 보존하는 패턴.
|
|
- **세부 내용:**
|
|
- **Global Statistics:** 국소적인 문맥(Window)만 보는 Word2Vec과 달리, 말뭉치 전체의 통계 정보를 반영.
|
|
- **Co-occurrence Probabilities:** 두 단어가 함께 나타날 확률의 비율을 로그 모델로 학습하여 의미적 차이를 벡터 공간의 거리로 변환.
|
|
- **Vector Arithmetic:** 'King - Man + Woman = Queen'과 같은 의미적 유추가 벡터 연산으로 가능함.
|
|
- **Pre-trained Embeddings:** 방대한 텍스트(Wikipedia 등)로 미리 학습된 벡터를 제공하여 다양한 NLP 태스크의 기초 데이터로 활용.
|
|
|
|
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
|
|
- **과거 데이터와의 충돌:** 워드 임베딩의 대세였으나, 문맥에 따라 단어의 의미가 변하는 동적 임베딩(BERT, GPT 등)이 등장하면서 정적 임베딩으로서의 한계가 명확해짐.
|
|
- **정책 변화:** Antigravity 에이전트의 텍스트 분석 엔진은 기본적으로 트랜스포머 기반 임베딩을 사용하나, 가벼운 단어 유사도 비교나 전통적인 통계 분석 시에는 GloVe를 참고 지표로 활용함.
|
|
|
|
## 🔗 지식 연결 (Graph)
|
|
- Word-Embeddings, Word2Vec, NLP, Vector-Space-Model
|
|
- **Raw Source:** 10_Wiki/Topics/AI/GloVe (Word Embeddings).md
|