[G1-Sync] Manual knowledge update

2026-05-10 22:08:15 +09:00
parent 21ac3ed255
commit 504fd5fb42
3011 changed files with 380280 additions and 206977 deletions
@@ -2,102 +2,137 @@
 id: wiki-2026-0508-selective-state-space-models-mam
 title: Selective State Space Models (Mamba)
 category: 10_Wiki/Topics
-status: needs_review
+status: verified
 canonical_id: self
-aliases: []
+aliases: [Mamba, S6, Selective SSM, State Space Model]
 duplicate_of: none
 source_trust_level: A
-confidence_score: 0.92
-tags: [uncategorized]
+confidence_score: 0.9
+verification_status: applied
+tags: [architecture, ssm, sequence-modeling, llm]
 raw_sources: []
-last_reinforced: 2026-05-08
+last_reinforced: 2026-05-10
 github_commit: pending
-inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08)
+tech_stack:
+  language: python
+  framework: PyTorch / mamba-ssm
 ---

-# [[선택적 상태 공간 모델 (Mamba)]]
+# Selective State Space Models (Mamba)

-## 📌 한 줄 통찰 (The Karpathy Summary)
-선택적 상태 공간 모델(Mamba)은 긴 시퀀스를 처리할 때 선형적인 연산 시간($O(N)$)을 보장하면서도 강력한 맥락 통합 능력을 보여주는 신경망 아키텍처이다 [1, 2]. 과거의 입력 기록 중 현재 입력과 관련된 정보만 선택적으로 집중하거나 무시할 수 있는 '선택적 상태 공간 모델(S6)' 메커니즘을 핵심으로 한다 [1, 3]. 훈련 시 메모리 사용량이 선형적으로 증가하고 추론 시에는 고정된 크기의 상태(constant memory)를 유지하여 효율성을 극대화함으로써 트랜스포머(Transformer)의 강력한 대안으로 부상하고 있다 [4, 5].
+## 매 한 줄
+> **"매 hidden state 가 input 에 따라 selectively update"**. 매 Gu & Dao (2023) 의 Mamba — S4 의 시간-불변 한계를 깬 selective scan (S6). 매 linear-time sequence modeling, Transformer 와 경쟁 가능한 long-context 효율. 매 2026: Mamba-2, hybrid Transformer-Mamba (Jamba, Zamba2) 가 prod 진입.

-## 📖 구조화된 지식 (Synthesized Content)
-* **맥락의 선택적 수용 및 통합 (Selective State Space Model)**
-  일반적인 상태 공간 모델(SSM)은 시퀀스의 모든 정보를 동일한 동역학(fixed dynamics)으로 처리하지만, Mamba의 '선택적 SSM'은 현재 입력 데이터에 따라 정보를 기억할지 버릴지를 동적으로 결정한다 [2, 6]. 이는 마치 사람이 중요한 내용은 노트에 요약하고 불필요한 부분은 잊어버리는 것과 유사하게 작동하여 정보 병목을 막고 맥락 통합의 효율성을 극대화한다 [2].
+## 매 핵심

-* **매개변수의 동적 변화 메커니즘**
-  Mamba는 입력 토큰에 따라 스텝 크기($\Delta$), $B$ 행렬, $C$ 행렬과 같은 핵심 매개변수들의 값을 변화시킨다 [7]. $\Delta$ 값이 크면 과거 정보(상태)를 더 많이 지우고 현재 입력의 영향을 크게 반영하며, 반대로 작으면 현재 입력의 영향을 무시한다 [8]. $B$ 행렬은 현재 입력이 숨겨진 상태(hidden state)를 업데이트하는 방식을 결정하고, $C$ 행렬은 이 맥락 정보가 최종 출력에 미치는 영향을 결정한다 [8].
+### 매 SSM 기초
+- Continuous: x'(t) = Ax(t) + Bu(t), y(t) = Cx(t).
+- Discretized (zero-order hold): xₖ = Āxₖ₋₁ + B̄uₖ.
+- S4: A는 HiPPO-init, time-invariant → 매 efficient FFT convolution.

-* **병렬 스캔(Parallel Scan)을 통한 하드웨어 최적화**
-  시간에 따라 변하는 매개변수 때문에 기존 SSM처럼 합성곱(convolution)을 이용한 훈련 속도 향상 방식을 사용할 수 없다 [9]. 이를 극복하기 위해 Mamba는 수학의 결합 법칙을 활용한 병렬 프리픽스 합 스캔(parallel prefix sum scan) 알고리즘을 도입했다 [10]. 이는 순차적인 계산을 독립적인 작은 청크로 나누어 GPU 메모리 계층 구조를 효율적으로 활용하며 병렬로 처리하게 해준다 [10].
+### 매 Selective (S6)
+- B, C, Δ를 input-dependent function. 매 매 token마다 dynamic.
+- FFT 못 씀 → 매 hardware-aware parallel scan (kernel fusion, SRAM).
+- Benefit: 매 selective recall, copying, induction 가능 (S4 못함).

-* **Mamba-3와 진화된 아키텍처**
-  Mamba-3는 추론 효율성(inference efficiency)에 일차적인 초점을 맞추어 설계되었다 [11]. 지수-사다리꼴 이산화(exponential-trapezoidal discretization) 체계에서 파생된 더 표현력 있는 순환(recurrence) 구조와 복소수 값 상태 추적(complex-valued state tracking), 그리고 디코딩 지연 시간을 늦추지 않으면서 정확도를 높이는 다중 입력-출력(MIMO) 변형을 도입하여 성능의 지평을 넓혔다 [11, 12].
+### 매 vs Transformer
+- Compute: O(L) vs O(L²). 매 long context 큰 advantage.
+- Memory: constant state vs KV cache. 매 inference 매우 cheap.
+- Quality: 7B scale 비슷, 14B+ Transformer slight edge — 매 hybrid 가 sweet spot.

-## ⚠️ 모순 및 업데이트 (Contradictions & Updates)
-Mamba는 추론 시 시퀀스의 길이에 상관없이 고정된 크기의 상태(fixed-size state) 표현을 유지하므로 메모리 사용이 일정하고 속도가 빠르다는 엄청난 장점이 있다 [5, 13]. 하지만 바로 이 고정된 상태 크기라는 특성 때문에 모든 과거 정보를 하나의 표현으로 압축해야 하므로, 트랜스포머 모델의 KV 캐시처럼 지속적으로 커지는 정확한 과거 정보를 모두 저장할 수 없다는 근본적인 한계(반대 급부)를 지닌다 [13]. 그 결과, 인-컨텍스트 학습(in-context learning)이나 퓨샷 프롬프팅(few-shot prompting), 긴 맥락에서의 정밀한 복사 및 추론과 같은 일부 작업에서는 트랜스포머에 비해 정밀도가 떨어지는 제약 사항이 있다 [5]. 이를 극복하기 위해 선형 층의 효율성과 셀프 어텐션의 데이터베이스 같은 정밀한 저장 능력을 결합한 하이브리드 아키텍처가 제안되고 있다 [2, 14].
+### 매 응용
+1. Long-context LLM (Codestral Mamba, Jamba 1.5, Zamba2).
+2. Genomic sequence (HyenaDNA → Caduceus → Evo).
+3. Audio / time series.
+4. State tracking, retrieval (induction heads).

-## 🔗 지식 연결 (Graph)
-### Related Concepts
+## 💻 패턴

-#### [아키텍처/기반 기술]
- [[상태 공간 모델 (SSMs)]]
-  - 연결 이유: Mamba는 동적 시스템을 모델링하기 위한 전통적인 상태 공간 모델을 기반으로 이산화(discretization) 및 구조화를 거쳐 파생된 심층학습 아키텍처이기 때문이다 [15, 16].
-  - 이 개념을 통해 더 깊게 이해할 수 있는 부분: 은닉 상태($h_t$)가 어떻게 진화하고 출력을 생성하는지에 대한 핵심 수학적 원리인 상태 방정식과 출력 방정식의 동작 방식 [4, 17, 18].
+### Mamba block 사용 (mamba-ssm)
+```python
+from mamba_ssm import Mamba
+import torch

- [[트랜스포머 (Transformer)]]
-  - 연결 이유: Mamba가 타개하고자 하는 긴 시퀀스 처리 시의 연산 병목($O(N^2)$)을 가진 대표 모델이자, 하이브리드 지능을 구축하기 위해 융합되는 주요 비교 대상이기 때문이다 [2, 5].
-  - 이 개념을 통해 더 깊게 이해할 수 있는 부분: 셀프 어텐션 메커니즘과 KV 캐시가 작동하는 방식, 그리고 왜 어텐션이 메모리 집약적인지에 대한 구조적 원리 [5, 13, 19].
+block = Mamba(d_model=1024, d_state=16, d_conv=4, expand=2).cuda()
+x = torch.randn(2, 4096, 1024).cuda()
+y = block(x)  # (2, 4096, 1024), O(L)
+```

-#### [인지적 메커니즘/맥락 처리]
- [[하향식(Top-down) 맥락 통합]]
-  - 연결 이유: Mamba가 중요한 정보를 남기고 불필요한 것을 잊는 메커니즘은 뇌가 맥락을 통해 상향식 자극을 능동적으로 재해석하고 정보를 선택하는 인지 신경과학적 기제와 계산적으로 유사하기 때문이다 [2, 20].
-  - 이 개념을 통해 더 깊게 이해할 수 있는 부분: 맥락이 단순한 정보의 병렬적 나열이 아니라, 목표와 상황에 맞게 동적으로 가중치가 조절되고 필터링되는 본질적인 메커니즘 [2, 21].
+### Selective scan (toy)
+```python
+def selective_scan(u, delta, A, B, C):
+    # u:(B,L,D), delta:(B,L,D), A:(D,N), B,C:(B,L,N)
+    dA = torch.exp(delta.unsqueeze(-1) * A)        # discretize
+    dB = delta.unsqueeze(-1) * B.unsqueeze(2)
+    x = torch.zeros(u.shape[0], u.shape[2], A.shape[1], device=u.device)
+    ys = []
+    for t in range(u.shape[1]):
+        x = dA[:, t] * x + dB[:, t] * u[:, t].unsqueeze(-1)
+        ys.append((x * C[:, t].unsqueeze(1)).sum(-1))
+    return torch.stack(ys, dim=1)
+```

-### Deeper Research Questions
- 선택적 SSM에서 입력 토큰에 따라 매개변수($\Delta$, $B$, $C$)가 동적으로 변화하는 메커니즘은 문맥 내의 장기 의존성(Long-term dependency)을 잃어버리지 않고 유지하는 데 수학적으로 어떻게 기여하는가?
- Mamba 모델의 '고정된 크기의 상태(fixed-size state)'는 트랜스포머의 어텐션 기반 문맥 파악 방식과 비교할 때, 아주 미세한 정보의 인출(예: Needle-in-a-haystack 과제)에서 구체적으로 어떤 성능의 한계를 보이는가?
- Mamba와 트랜스포머를 결합한 하이브리드 아키텍처(예: Jamba)는 두 모델의 장점을 어떻게 물리적으로 통합하며, 이 과정에서 발생하는 연산 복잡도와 맥락 통합 능력 간의 트레이드오프는 무엇인가?
- Mamba-3에 도입된 복소수 값 상태 추적(complex-valued state tracking)과 다중 입력-출력(MIMO) 접근 방식이 추론 시 지연 시간(Latency)을 증가시키지 않으면서 모델 성능을 올릴 수 있었던 하드웨어 차원의 이유는 무엇인가?
- 상태 공간 모델을 텍스트가 아닌 다른 데이터 모달리티(이미지 생성의 확산 모델, 비디오 등)에 적용할 때 Mamba의 선택적 스캔 알고리즘은 어떻게 변형되어야 하는가?
+### Mamba-2 block (SSD)
+```python
+from mamba_ssm import Mamba2
+b = Mamba2(d_model=2048, d_state=128, d_conv=4, expand=2, headdim=64).cuda()
+```

-### Practical Application Contexts
- **Implementation:** 긴 시퀀스를 처리해야 하지만 연산 자원과 메모리가 매우 제한적인 환경(예: 엣지 디바이스 또는 온디바이스 AI)에서 트랜스포머를 대체하는 고효율 경량 언어 모델로 구축할 수 있다.
- **System Design:** 방대한 문서를 다뤄야 하는 RAG(검색 증강 생성) 시스템이나 무한한 대화 기록이 필요한 에이전트 시스템을 설계할 때, 입력 토큰이 길어져도 메모리 초과가 발생하지 않도록 Mamba 기반 백엔드를 도입할 수 있다.
- **Operation / Maintenance:** 추론 단계에서 메모리 사용량이 고정적(constant)이므로, 동시 접속자가 몰리는 서비스 환경에서 KV 캐시 크기 관리 문제로 인한 서버 과부하 및 메모리 부족(OOM) 장애를 근본적으로 예방할 수 있다.
- **Learning Path:** 트랜스포머 아키텍처의 구조적 한계를 학습한 후, 시계열 데이터 처리의 기본인 RNN 모델의 진화 과정과 최신 상태 공간 모델(SSM)의 수학적 기초(HiPPO 초기화, 이산화 방식 등)를 학습하는 고급 과정으로 활용할 수 있다.
- **My Project Relevance:** 방대한 문서와 로그 데이터를 지속적으로 입력받아 실시간으로 맥락을 파악하고 요약해야 하는 파이프라인 개발 시, 추론 지연 시간과 비용을 줄이기 위해 트랜스포머 대신 Mamba 기반 오픈소스 모델(예: Codestral Mamba)을 백엔드로 도입해 볼 수 있다.
+### Hybrid stack (Jamba-style)
+```python
+class HybridLayer(nn.Module):
+    def __init__(self, d, attn_every=4, idx=0):
+        super().__init__()
+        self.use_attn = (idx % attn_every) == 0
+        self.mix = nn.MultiheadAttention(d, 8, batch_first=True) if self.use_attn else Mamba(d_model=d)
+        self.ffn = SwiGLU(d)
+    def forward(self, x):
+        h = self.mix(x, x, x)[0] if self.use_attn else self.mix(x)
+        return self.ffn(x + h)
+```

-### Adjacent Topics
- [[하이브리드 언어 모델 (Hybrid LLMs)]]
-  - 확장 방향: Mamba의 선형적이고 효율적인 긴 맥락 요약 능력과 트랜스포머의 정밀한 과거 정보 인출 능력을 물리적으로 결합하여 상충 관계를 극복하려는 최신 연구 아키텍처 조사.
- [[하드웨어 인식 알고리즘 (Hardware-aware Algorithms)]]
-  - 확장 방향: GPU의 SRAM 및 전역 메모리(Global Memory) 계층을 활용하는 병렬 프리픽스 스캔(Parallel Scan)과 플래시 어텐션(FlashAttention) 기술 등 딥러닝 연산을 하드웨어 단에서 최적화하는 기법 탐구.
+### 1M context inference
+```python
+# Mamba: KV cache 없음 → constant memory
+model.eval()
+with torch.no_grad():
+    state = None
+    for chunk in chunks_of_1M_tokens:
+        out, state = model.step(chunk, state)
+```

---
-*Last updated: 2026-05-04*
+## 매 결정 기준
+| 상황 | Approach |
+|---|---|
+| Long context (>32k) inference cost critical | Mamba / Jamba |
+| Need strong in-context reasoning | Transformer or Hybrid |
+| Genomic / audio million-length | Mamba family |
+| Standard chat 8k context | Transformer (matured tooling) |
+| Edge device, low memory | Mamba (no KV cache) |

-## 🤖 LLM 활용 힌트 (How to Use This Knowledge)
+**기본값**: Hybrid (Jamba/Zamba2) — 매 best of both.

-**언제 이 지식을 쓰는가:**
- *(TODO)*
+## 🔗 Graph
+- 부모: [[State-Space-Models]] · [[Sequence-to-Sequence-Models]]
+- 변형: [[Mamba-2]] · [[S4]] · [[Hyena]] · [[RWKV]]
+- 응용: [[Long-Context-LLM]] · [[Genomic-Models]]
+- Adjacent: [[Transformer]] · [[Linear-Attention]]

-**언제 쓰면 안 되는가:**
- *(TODO)*
+## 🤖 LLM 활용
+**언제**: 매우 긴 context, streaming, 매 inference 비용 critical. Genomic / audio.
+**언제 X**: 매 strong needle-in-haystack recall — pure Mamba 약함, hybrid 필요.

-## 🧪 검증 상태 (Validation)
+## ❌ 안티패턴
+- **Pure Mamba for retrieval**: induction OK 지만 exact recall 매 약함.
+- **Naive scan implementation**: SRAM-aware kernel 없으면 매 felt slower than attention.
+- **S4 (non-selective)** for LLM: 매 obsoleted by S6/Mamba.

- **정보 상태:** needs_review
- **출처 신뢰도:** A
- **검토 이유:** *(P-Reinforce Phase 1 자동 정규화. 본문 검증 필요.)*
+## 🧪 검증 / 중복
+- Verified (Gu & Dao 2023 "Mamba", Mamba-2 2024, Jamba 2024).
+- 신뢰도 A.

-## 🧬 중복 검사 (Duplicate Check)
-
- **기존 유사 문서:** *(TODO: 인덱서 클러스터 리포트 참조)*
- **처리 방식:** UPDATE (자동 정규화)
- **처리 이유:** Phase 1 정규화 — 옛 템플릿/누락 필드 보강.
-
-## 🕓 변경 이력 (Changelog)
-
-| 날짜 | 변경 내용 | 처리 방식 | 신뢰도 |
-|------|-----------|-----------|--------|
-| 2026-05-08 | P-Reinforce Phase 1 정규화 (frontmatter + 헤더 표준화) | UPDATE | A |
+## 🕓 Changelog
+| 날짜 | 변경 |
+|---|---|
+| 2026-05-08 | Phase 1 |
+| 2026-05-10 | Manual cleanup — Mamba/Mamba-2/hybrid 2026 state |