docs(wiki): P-Reinforce v3.0 wikification of Attention, KV Cache, and RAG clusters

2026-05-04 13:23:57 +09:00
parent 8fd43be9bb
commit 772d3e11e0
12 changed files with 418 additions and 3 deletions
@@ -24,11 +24,17 @@ last_reinforced: 2026-04-20
 3.  **의의**:
    *   순차적으로 데이터를 처리하던 과거 기술(RNN)의 한계를 극복하고, 장거리 의존성(Long-range dependency)을 완벽히 해결하여 ChatGPT와 같은 거대 모델의 시대를 엶.

+2.  **주요 변형 및 최적화**:
+    *   **[[Flash Attention|Flash Attention]]**: 메모리 대역폭 문제를 해결하여 속도를 2~4배 높인 하드웨어 인식 최적화.
+    *   **[[Grouped-Query Attention (GQA)|Grouped-Query Attention (GQA)]]**: MHA의 성능과 MQA의 효율성을 절충한 현대 LLM의 표준.
+    *   **[[Sparse Attention|Sparse Attention]]**: 특정 토큰만 선택적으로 참조하여 복잡도를 $O(n^2)$에서 $O(n)$으로 축소.
+    *   **[[Ring Attention|Ring Attention]]**: 다중 장치 분산 처리를 통해 백만 단위 이상의 초장기 컨텍스트 실현.
+
 ## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
 - **과거 데이터와의 충돌**: 과거에는 모든 데이터를 골고루 보거나 순서대로 보는 것이 정확하다고 믿었으나, 현대 딥러닝 정책은 필요한 것만 골라 보는 'Attention 효율화 정책'이 지능의 성능을 결정한다는 정책적 승리를 거둠(RL Update).
- **정책 변화(RL Update)**: 연산 비용 최적화 정책을 위해, 무거운 Full-attention 대신 연산량을 줄인 'Flash Attention'이나 'Linear Attention' 정책이 소형 모델 및 엣지 장치용 AI 정책의 핵심 기술로 채택됨.
+- **정책 변화(RL Update)**: 단순히 연산량만 줄이는 것을 넘어, 메모리 계층 구조를 이해하고(Flash) 토큰 관계의 희소성을 이용하는(Sparse/GQA) 하이브리드 어텐션 정책이 2026년 이후의 표준으로 자리 잡음.

 ## 🔗 지식 연결 (Graph)
- [[Transformers|Transformers]], Deep Learning, Natural Language [[Processing|Processing]] (NLP), Information-Overload, Economics of Attention
- **Modern Tech/Tools**: Multi-head Attention, FlashAttention, GPT, [[BERT|BERT]].
+- [[Transformers|Transformers]], [[Deep Learning|Deep Learning]], [[Natural Language Processing (NLP)|Natural Language Processing (NLP)]], [[LLM Inference Optimization|LLM Inference Optimization]]
+- **Specific Technologies**: [[Multi-Head Attention (MHA)|MHA]], [[Grouped-Query Attention (GQA)|GQA]], [[Flash Attention|Flash Attention]], [[Ring Attention|Ring Attention]], [[Sparse Attention|Sparse Attention]].
 ---