2.5 KiB
2.5 KiB
id, category, confidence_score, tags, last_reinforced
| id | category | confidence_score | tags | last_reinforced | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| PREI-AUTO-E2LLM-001 | Unified | 0.96 |
|
2026-05-05 |
E2LLM
📌 한 줄 통찰 (The Karpathy Summary)
"거대한 문맥을 '소프트 프롬프트'라는 고밀도 알약으로 압축하여, 모델의 재학습 없이도 무한에 가까운 정보를 삼키게 만드는 효율적 인지 확장 프레임워크."
📖 구조화된 지식 (Synthesized Content)
E2LLM은 긴 문맥을 처리할 때 발생하는 연산 복잡도와 메모리 문제를 '압축(Compression)'과 '정렬(Alignment)'로 해결하는 기술입니다.
- 불가능한 삼각형(Impossible Triangle) 해소:
- 고성능, 낮은 계산 복잡성, 사전 학습 모델과의 호환성이라는 세 가지 상충하는 목표를 동시에 달성.
- 긴 텍스트를 청크(Chunk)로 나눈 뒤, 사전 학습된 인코더로 각 청크를 단일 '청크 토큰'으로 압축하여 디코더에 전달.
- vPMA (Pooling by Multihead Attention) 메커니즘:
- 단순한 풀링이 아닌, 어텐션 기반의 가중 집계를 통해 중요한 의미 정보를 청크 토큰에 보존.
- 어댑터(Adapter)를 통해 인코더의 출력 공간을 LLM 디코더의 입력 공간과 일치시킴.
- 비약적인 연산 효율:
- 압축률을 약 100배까지 높여 추론 시 시간 및 공간 복잡도를 획기적으로 개선.
- FlashAttention과 같은 하드웨어 가속 기술과 병행 시 대규모 문맥 이해 능력을 극대화할 수 있음.
⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- 정보 손실의 필연성 (RL Update): 100배의 압축률은 핵심 의미(Semantic)는 보존하지만, 미세한 사실 관계(Token-level detail)는 희생시킴. 따라서 정확한 수치나 고유 명사를 찾는 'Needle-in-a-Haystack' 작업에서는 단독 사용 시 성능 저하가 발생할 수 있음.
- RAG와의 시너지: 이러한 압축 손실을 보완하기 위해, 세밀한 정보는 RAG로 검색하고 전체 맥락은 E2LLM으로 이해하는 하이브리드 전략이 Antigravity의 차세대 정책임.
🔗 지식 연결 (Graph)
- FlashAttention, Soft-Prompting, In-context-Learning, RAG
- Raw Source: Datacollector_MAC/out_wiki/E2LLM (Encoder Elongated LLMs).md