2.5 KiB
2.5 KiB
id, category, confidence_score, tags, last_reinforced
| id | category | confidence_score | tags | last_reinforced | ||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| PREI-AUTO-TOKEN-EMB-001 | Unified | 0.98 |
|
2026-05-05 |
Token-Embedding
📌 한 줄 통찰 (The Karpathy Summary)
"언어라는 무질서한 바다에서 단어를 건져 올려, 기계가 연산할 수 있는 논리적 좌표계(Vector Space) 위에 좌표를 찍어주는 최초의 수치화 작업."
📖 구조화된 지식 (Synthesized Content)
토큰 임베딩은 원시 텍스트 시퀀스를 신경망 모델이 처리할 수 있는 고차원 기능 벡터로 변환하는 핵심 과정입니다.
- 벡터 공간으로의 매핑:
- 학습된 어휘 사전(Vocabulary)을 기반으로 각 단어나 형태소를 고유한 수치 벡터로 변환.
- 의미적으로 유사한 토큰들은 벡터 공간상에서도 가깝게 위치하도록 학습됨.
- 위치 정보의 결합 (Positional Encoding):
- 트랜스포머와 같은 아키텍처는 순서 정보를 보존하기 위해 토큰 임베딩에 위치 벡터를 추가. 이를 통해 모델은 '나'와 '너'의 위치 관계를 파악.
- 동적 문맥 업데이트:
- 초기 임베딩은 정적이지만, 모델의 계층을 통과하며 Attention-Mechanism이나 게이팅 메커니즘에 의해 시퀀스 내 다른 토큰들의 정보를 흡수, '문맥화된 임베딩'으로 계속 진화함.
⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- 압축과 해상도의 모순 (RL Update): E2LLM과 같은 기술을 통해 긴 문맥의 임베딩들을 하나로 압축(Soft Prompt)할 경우, 처리 효율은 극대화되지만 개별 토큰의 미세한 의미 정보(Specificity)가 훼손되는 리스크가 발생함.
- 파라미터 효율성의 한계: 임베딩 레이어는 모델 전체 파라미터에서 차지하는 비중이 매우 작음(약 2% 미만). 따라서 단순히 임베딩만 튜닝하는 것은 모델의 긴 문맥 적응 성능을 끌어올리는 데 한계가 있으며, 정규화 레이어 등과의 동시 최적화가 필수적임.
🔗 지식 연결 (Graph)
- Attention-Mechanism, Positional-Encoding, Soft-Prompt-Compression, NLP
- Raw Source: Datacollector_MAC/out_wiki/자연어 처리 (NLP)에서의 토큰 임베딩 (Token Embedding).md