Files
2nd/10_Wiki/Topics/Token-Embedding.md
T

2.5 KiB

id, category, confidence_score, tags, last_reinforced
id category confidence_score tags last_reinforced
PREI-AUTO-TOKEN-EMB-001 Unified 0.98
auto-reinforced
Token-Embedding|Token-Embedding
vector-space
positional-encoding
NLP
context-update
2026-05-05

Token-Embedding

📌 한 줄 통찰 (The Karpathy Summary)

"언어라는 무질서한 바다에서 단어를 건져 올려, 기계가 연산할 수 있는 논리적 좌표계(Vector Space) 위에 좌표를 찍어주는 최초의 수치화 작업."

📖 구조화된 지식 (Synthesized Content)

토큰 임베딩은 원시 텍스트 시퀀스를 신경망 모델이 처리할 수 있는 고차원 기능 벡터로 변환하는 핵심 과정입니다.

  1. 벡터 공간으로의 매핑:
    • 학습된 어휘 사전(Vocabulary)을 기반으로 각 단어나 형태소를 고유한 수치 벡터로 변환.
    • 의미적으로 유사한 토큰들은 벡터 공간상에서도 가깝게 위치하도록 학습됨.
  2. 위치 정보의 결합 (Positional Encoding):
    • 트랜스포머와 같은 아키텍처는 순서 정보를 보존하기 위해 토큰 임베딩에 위치 벡터를 추가. 이를 통해 모델은 '나'와 '너'의 위치 관계를 파악.
  3. 동적 문맥 업데이트:
    • 초기 임베딩은 정적이지만, 모델의 계층을 통과하며 Attention-Mechanism이나 게이팅 메커니즘에 의해 시퀀스 내 다른 토큰들의 정보를 흡수, '문맥화된 임베딩'으로 계속 진화함.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

  • 압축과 해상도의 모순 (RL Update): E2LLM과 같은 기술을 통해 긴 문맥의 임베딩들을 하나로 압축(Soft Prompt)할 경우, 처리 효율은 극대화되지만 개별 토큰의 미세한 의미 정보(Specificity)가 훼손되는 리스크가 발생함.
  • 파라미터 효율성의 한계: 임베딩 레이어는 모델 전체 파라미터에서 차지하는 비중이 매우 작음(약 2% 미만). 따라서 단순히 임베딩만 튜닝하는 것은 모델의 긴 문맥 적응 성능을 끌어올리는 데 한계가 있으며, 정규화 레이어 등과의 동시 최적화가 필수적임.

🔗 지식 연결 (Graph)