feat: Wiki 지식 자산 업데이트 - UX Scenarios, Frontend, Game Design, Topics 추가 [2026-05-08]

This commit is contained in:
2026-05-08 19:52:07 +09:00
parent 9dd3d40662
commit 5ba5a55c78
3984 changed files with 334557 additions and 28839 deletions
+67 -21
View File
@@ -1,32 +1,78 @@
---
id: PREI-AUTO-S2-ATTN-001
category: Unified
confidence_score: 0.96
tags: [auto-reinforced, [[S2-Attn|S2-Attn]], shifted-sparse-attention, efficiency, long-context, [[FlashAttention|FlashAttention]]-compatible]
last_reinforced: 2026-05-05
id: wiki-2026-0508-s2-attn
title: S2 Attn
category: 10_Wiki/Topics
status: verified
canonical_id: self
aliases: []
duplicate_of: none
source_trust_level: A
confidence_score: 0.92
tags: [uncategorized]
raw_sources: []
last_reinforced: 2026-05-08
github_commit: pending
inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08)
---
# [[S2-Attn|이동된 짧은 어텐션 (Shifted Sparse Attention, S2-Attn)]]
---
redirect_to: "[[생성형_AI_및_LLM_엔지니어링_표준]]"
canonical_id: "wiki-2026-0507-106"
---
# Redirect
이 문서는 Canonical 문서인 통합되었습니다.
모든 최신 지식과 세부 내용은 위 링크를 참조하십시오.
## 📌 한 줄 통찰 (The Karpathy Summary)
> "데이터를 잘게 쪼개어 연산 부하를 줄이되, 헤드를 교차로 이동시켜(Shift) 잘려 나간 정보의 맥락을 다시 잇는 영리한 어텐션 퍼즐."
> Shifted Sparse Attention(S²-Attn)은 LongLoRA 등에서 사용된 효율적 어텐션 패턴으로, 긴 컨텍스트 파인튜닝 시 메모리·시간 비용을 줄이면서 글로벌 정보 흐름은 유지한다.
## 📖 구조화된 지식 (Synthesized Content)
S2-Attn은 대규모 언어 모델의 훈련 및 미세 조정 시 연산 비용을 획기적으로 낮추면서도 긴 문맥을 보존하기 위해 고안된 희소 어텐션 기법입니다.
1. **그룹 분할과 정보 교차**:
* 긴 시퀀스를 작은 그룹으로 나누어 어텐션을 수행하여 연산량을 줄임.
* 단순 분할 시 발생하는 그룹 간 정보 단절을 막기 위해, 어텐션 헤드의 절반에서 토큰을 이동(Shift)시켜 인접 그룹과 정보가 겹치도록 설계.
2. **구현의 극치적 단순성**:
* 토큰 이동과 차원 변환이라는 단 몇 줄의 코드만으로 표준 어텐션 수준의 성능 유지 가능.
3. **뛰어난 호환성**:
* 훈련 시에만 이 방식을 사용하고 추론 시에는 다시 표준 어텐션을 사용할 수 있어, [[FlashAttention|FlashAttention-2]]와 같은 기존 가속 인프라와 즉시 호환됨.
**추출된 패턴:** "local sparsity + 절반의 헤드 shift"로 윈도우 경계 정보 누설을 방지 — 단순 슬라이딩 윈도우의 단점을 보완.
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **인과적 마스크와의 불일치 (RL Update)**: 토큰 이동 과정에서 시퀀스 끝의 토큰이 앞으로 오는 등 인과 관계(Causal link)가 뒤섞일 리스크가 있음. 이를 방지하기 위해 마스크를 수정하거나 별도의 그룹 관리가 필요함.
- **패턴 조합의 강제**: 반드시 이동된 헤드와 이동되지 않은 헤드를 절반씩 섞어야만 정상 작동함. 이는 개별 연산보다 '조합의 균형'이 성능의 핵심임을 시사함.
**세부 내용:**
- 그룹 크기 G로 시퀀스를 분할하여 그룹 내 어텐션만 계산.
- 헤드의 절반은 G/2만큼 시프트해 다음 그룹 정보까지 흡수.
- 학습 시 시간 복잡도 O(L·G)로 O(L²) 대비 큰 절감.
- LongLoRA에서 32K~100K 컨텍스트 파인튜닝에 활용.
- 추론 시에는 일반 어텐션으로 전환 가능.
## 🤖 LLM 활용 힌트 (How to Use This Knowledge)
**언제 이 지식을 쓰는가:**
- *(TODO)*
**언제 쓰면 안 되는가:**
- *(TODO)*
## 🧪 검증 상태 (Validation)
- **정보 상태:** draft
- **출처 신뢰도:** A
- **검토 이유:** *(P-Reinforce Phase 1 자동 정규화. 본문 검증 필요.)*
## 🧬 중복 검사 (Duplicate Check)
- **기존 유사 문서:** *(TODO: 인덱서 클러스터 리포트 참조)*
- **처리 방식:** UPDATE (자동 정규화)
- **처리 이유:** Phase 1 정규화 — 옛 템플릿/누락 필드 보강.
## ⚠️ 모순 및 업데이트 (Contradictions & Updates)
- **과거 데이터와의 충돌:** 없음
- **정책 변화:** 없음
## 🔗 지식 연결 (Graph)
- [[FlashAttention|FlashAttention]], [[Attention-Mechanism|Attention-Mechanism]], [[LongLoRA|LongLoRA]], [[E2LLM|E2LLM]]
- **Raw Source**: Datacollector_MAC/out_wiki/이동된 짧은 어텐션 (S2-Attn).md
---
- **Parent:** [[10_Wiki/Topics]]
- **Related:** *(TODO: 최소 2개)*
- **Opposite / Trade-off:** *(TODO)*
- **Raw Source:** 직접 입력
## 🕓 변경 이력 (Changelog)
| 날짜 | 변경 내용 | 처리 방식 | 신뢰도 |
|------|-----------|-----------|--------|
| 2026-05-08 | P-Reinforce Phase 1 정규화 (frontmatter + 헤더 표준화) | UPDATE | A |