2.3 KiB
2.3 KiB
id: PREI-AUTO-S2-ATTN-001 category: Unified confidence_score: 0.96 tags: [auto-reinforced, S2-Attn, shifted-sparse-attention, efficiency, long-context, FlashAttention-compatible] last_reinforced: 2026-05-05
S2-Attn
📌 한 줄 통찰 (The Karpathy Summary)
"데이터를 잘게 쪼개어 연산 부하를 줄이되, 헤드를 교차로 이동시켜(Shift) 잘려 나간 정보의 맥락을 다시 잇는 영리한 어텐션 퍼즐."
📖 구조화된 지식 (Synthesized Content)
S2-Attn은 대규모 언어 모델의 훈련 및 미세 조정 시 연산 비용을 획기적으로 낮추면서도 긴 문맥을 보존하기 위해 고안된 희소 어텐션 기법입니다.
- 그룹 분할과 정보 교차:
- 긴 시퀀스를 작은 그룹으로 나누어 어텐션을 수행하여 연산량을 줄임.
- 단순 분할 시 발생하는 그룹 간 정보 단절을 막기 위해, 어텐션 헤드의 절반에서 토큰을 이동(Shift)시켜 인접 그룹과 정보가 겹치도록 설계.
- 구현의 극치적 단순성:
- 토큰 이동과 차원 변환이라는 단 몇 줄의 코드만으로 표준 어텐션 수준의 성능 유지 가능.
- 뛰어난 호환성:
- 훈련 시에만 이 방식을 사용하고 추론 시에는 다시 표준 어텐션을 사용할 수 있어, FlashAttention와 같은 기존 가속 인프라와 즉시 호환됨.
⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- 인과적 마스크와의 불일치 (RL Update): 토큰 이동 과정에서 시퀀스 끝의 토큰이 앞으로 오는 등 인과 관계(Causal link)가 뒤섞일 리스크가 있음. 이를 방지하기 위해 마스크를 수정하거나 별도의 그룹 관리가 필요함.
- 패턴 조합의 강제: 반드시 이동된 헤드와 이동되지 않은 헤드를 절반씩 섞어야만 정상 작동함. 이는 개별 연산보다 '조합의 균형'이 성능의 핵심임을 시사함.
🔗 지식 연결 (Graph)
- FlashAttention, Attention-Mechanism, LongLoRA, E2LLM
- Raw Source: Datacollector_MAC/out_wiki/이동된 짧은 어텐션 (S2-Attn).md