"매 hidden state 가 input 에 따라 selectively update". 매 Gu & Dao (2023) 의 Mamba — S4 의 시간-불변 한계를 깬 selective scan (S6). 매 linear-time sequence modeling, Transformer 와 경쟁 가능한 long-context 효율. 매 2026: Mamba-2, hybrid Transformer-Mamba (Jamba, Zamba2) 가 prod 진입.
매 핵심
매 SSM 기초
Continuous: x'(t) = Ax(t) + Bu(t), y(t) = Cx(t).
Discretized (zero-order hold): xₖ = Āxₖ₋₁ + B̄uₖ.
S4: A는 HiPPO-init, time-invariant → 매 efficient FFT convolution.
매 Selective (S6)
B, C, Δ를 input-dependent function. 매 매 token마다 dynamic.
FFT 못 씀 → 매 hardware-aware parallel scan (kernel fusion, SRAM).
Benefit: 매 selective recall, copying, induction 가능 (S4 못함).
매 vs Transformer
Compute: O(L) vs O(L²). 매 long context 큰 advantage.
Memory: constant state vs KV cache. 매 inference 매우 cheap.
Quality: 7B scale 비슷, 14B+ Transformer slight edge — 매 hybrid 가 sweet spot.