docs(wiki): Finalized P-Reinforce v3.0 wikification of all 118 out_wiki assets

2026-05-04 13:33:35 +09:00
parent 772d3e11e0
commit 972cd84dba
28 changed files with 1054 additions and 0 deletions
@@ -0,0 +1,36 @@
+---
+id: [[P-Reinforce|P-Reinforce]]-AUTO-DPRC-001
+category: Unified
+confidence_score: 1.00
+tags: [auto-reinforced, context-parallelism, sequence-parallelism, distributed-training, deepspeed, ring-attention]
+last_reinforced: 2026-05-04
+---
+
+# [[Distributed Processing (Context & Sequence Parallelism)|Distributed Processing (Context & Sequence Parallelism)]]
+
+## 📌 한 줄 통찰 (The Karpathy Summary)
+> "거대 모델의 분업 원칙: 단일 GPU의 메모리 한계를 넘기 위해, 모델을 쪼개는 것을 넘어 '문장(Sequence)' 자체를 여러 장치에 나누어 처리하고 광속으로 데이터를 주고받는 분산 연산의 정수."
+
+## 📖 구조화된 지식 (Synthesized Content)
+거대 언어 모델을 학습하거나 추론할 때, 시퀀스 길이와 파라미터 수에 따른 메모리 한계를 극복하기 위한 분산 처리 기술입니다.
+
+1.  **Context Parallelism (컨텍스트 병렬화)**:
+    *   **원리**: 입력된 긴 문장(시퀀스)을 여러 조각으로 나누어 각각 다른 GPU에서 처리하게 합니다.
+    *   **의의**: [[Ring Attention|Ring Attention]]과 같은 기술을 통해 GPU 간에 데이터를 순환시키며, 단일 GPU로는 불가능한 백만 토큰 이상의 처리를 가능하게 합니다.
+2.  **Sequence Parallelism (시퀀스 병렬화)**:
+    *   **원리**: 행렬 연산 이외의 부분(Layer Norm, Dropout 등)에서 발생하는 중복된 메모리 점유를 줄이기 위해 시퀀스 차원을 따라 데이터를 분할합니다.
+    *   **효과**: 텐서 병렬화([[Tensor Parallelism|Tensor Parallelism]])와 결합하여 메모리 효율을 극대화합니다.
+3.  **USP (Unified Sequence Parallelism)**:
+    *   DeepSpeed Ulysses와 Ring Attention의 장점을 결합하여, 통신 패턴을 최적화하고 초장거리 문맥 학습 성능을 극대화하는 최신 하이브리드 접근법입니다.
+
+## ⚖️ Trade-offs & Caveats
+*   **통신 오버헤드**: 데이터를 나누어 처리하는 만큼 GPU 간에 빈번한 통신이 발생합니다. [[NVLink|NVLink]]와 같은 고속 네트워크 인프라가 뒷받침되지 않으면 오히려 연산보다 통신 대기 시간이 길어져 성능이 급감합니다.
+*   **복잡한 인프라 관리**: 수십~수백 대의 GPU 클러스터를 정밀하게 동기화하고 관리해야 하므로 엔지니어링 난이도가 매우 높습니다.
+
+## 🔗 지식 연결 (Graph)
+*   **물리적 기반**: [[GPU Infrastructure|GPU Infrastructure]], [[NVLink|NVLink]], [[InfiniBand|InfiniBand]]
+*   **핵심 알고리즘**: [[Ring Attention|Ring Attention]], [[Attention Mechanisms|Attention Mechanisms]]
+*   **연관 기술**: [[Tensor Parallelism|Tensor Parallelism]], [[DeepSpeed|DeepSpeed]]
+
+---
+*Last updated: 2026-05-04*