Files
2nd/10_Wiki/Topics/E2LLM.md
T

35 lines
2.5 KiB
Markdown

---
id: PREI-AUTO-E2LLM-001
category: Unified
confidence_score: 0.96
tags: [auto-reinforced, [[E2LLM|E2LLM]], soft-prompt, context-compression, [[LLM|LLM]], inference-efficiency]
last_reinforced: 2026-05-05
---
# [[E2LLM|E2LLM (Encoder Elongated LLMs)]]
## 📌 한 줄 통찰 (The Karpathy Summary)
> "거대한 문맥을 '소프트 프롬프트'라는 고밀도 알약으로 압축하여, 모델의 재학습 없이도 무한에 가까운 정보를 삼키게 만드는 효율적 인지 확장 프레임워크."
## 📖 구조화된 지식 (Synthesized Content)
E2LLM은 긴 문맥을 처리할 때 발생하는 연산 복잡도와 메모리 문제를 '압축(Compression)'과 '정렬(Alignment)'로 해결하는 기술입니다.
1. **불가능한 삼각형(Impossible Triangle) 해소**:
* **고성능**, **낮은 계산 복잡성**, **사전 학습 모델과의 호환성**이라는 세 가지 상충하는 목표를 동시에 달성.
* 긴 텍스트를 청크(Chunk)로 나눈 뒤, 사전 학습된 인코더로 각 청크를 단일 '청크 토큰'으로 압축하여 디코더에 전달.
2. **vPMA (Pooling by Multihead Attention) 메커니즘**:
* 단순한 풀링이 아닌, 어텐션 기반의 가중 집계를 통해 중요한 의미 정보를 청크 토큰에 보존.
* 어댑터(Adapter)를 통해 인코더의 출력 공간을 LLM 디코더의 입력 공간과 일치시킴.
3. **비약적인 연산 효율**:
* 압축률을 약 100배까지 높여 추론 시 시간 및 공간 복잡도를 획기적으로 개선.
* [[FlashAttention|FlashAttention]]과 같은 하드웨어 가속 기술과 병행 시 대규모 문맥 이해 능력을 극대화할 수 있음.
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **정보 손실의 필연성 (RL Update)**: 100배의 압축률은 핵심 의미(Semantic)는 보존하지만, 미세한 사실 관계(Token-level detail)는 희생시킴. 따라서 정확한 수치나 고유 명사를 찾는 'Needle-in-a-Haystack' 작업에서는 단독 사용 시 성능 저하가 발생할 수 있음.
- **RAG와의 시너지**: 이러한 압축 손실을 보완하기 위해, 세밀한 정보는 [[RAG|RAG]]로 검색하고 전체 맥락은 E2LLM으로 이해하는 하이브리드 전략이 Antigravity의 차세대 정책임.
## 🔗 지식 연결 (Graph)
- [[FlashAttention|FlashAttention]], [[Soft-Prompting|Soft-Prompting]], [[In-context-Learning|In-context-Learning]], [[RAG|RAG]]
- **Raw Source**: Datacollector_MAC/out_wiki/E2LLM (Encoder Elongated LLMs).md
---