Files
2nd/10_Wiki/Topics/GloVe (Word Embeddings).md
T
2026-05-02 23:33:34 +09:00

2.1 KiB

id, category, confidence_score, tags, last_reinforced
id category confidence_score tags last_reinforced
GLOVE-001 Unified 1.0
nlp
word-embeddings
ai-history
vectors
2026-04-26

GloVe (Global Vectors for Word Representation)

📌 한 줄 통찰 (The Karpathy Summary)

"단어의 의미를 전체 말뭉치의 동시 출현 빈도로 정의하라" — 전역적인 단어-단어 동시 출현 행렬(Co-occurrence Matrix)의 통계 정보를 활용하여 단어를 고차원 벡터로 변환하는 임베딩 기법.

📖 구조화된 지식 (Synthesized Content)

  • 추출된 패턴: 단어 간의 공생 관계를 행렬 분해(Matrix Factorization)와 유사한 수치 해석적 방법으로 학습하여, 단어 사이의 의미적 거리와 유추 관계(Analogy)를 보존하는 패턴.
  • 세부 내용:
    • Global Statistics: 국소적인 문맥(Window)만 보는 Word2Vec과 달리, 말뭉치 전체의 통계 정보를 반영.
    • Co-occurrence Probabilities: 두 단어가 함께 나타날 확률의 비율을 로그 모델로 학습하여 의미적 차이를 벡터 공간의 거리로 변환.
    • Vector Arithmetic: 'King - Man + Woman = Queen'과 같은 의미적 유추가 벡터 연산으로 가능함.
    • Pre-trained Embeddings: 방대한 텍스트(Wikipedia 등)로 미리 학습된 벡터를 제공하여 다양한 NLP 태스크의 기초 데이터로 활용.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

  • 과거 데이터와의 충돌: 워드 임베딩의 대세였으나, 문맥에 따라 단어의 의미가 변하는 동적 임베딩(BERT, GPT 등)이 등장하면서 정적 임베딩으로서의 한계가 명확해짐.
  • 정책 변화: Antigravity 에이전트의 텍스트 분석 엔진은 기본적으로 트랜스포머 기반 임베딩을 사용하나, 가벼운 단어 유사도 비교나 전통적인 통계 분석 시에는 GloVe를 참고 지표로 활용함.

🔗 지식 연결 (Graph)

  • Word-Embeddings, Word2Vec, NLP, Vector-Space-Model
  • Raw Source: 10_Wiki/Topics/AI/GloVe (Word Embeddings).md