Files
2nd/10_Wiki/Topics/SSM.md
T

2.5 KiB


id: PREI-AUTO-SSM-001 category: Unified confidence_score: 0.95 tags: [auto-reinforced, SSM, linear-time, sequence-modeling, RNN, Convolution-duality] last_reinforced: 2026-05-05

SSM

📌 한 줄 통찰 (The Karpathy Summary)

"과거의 무한한 흐름을 유한한 벡터에 압축하여 전달하는 재귀(Recurrence)의 효율성과, 미래를 한꺼번에 계산하는 합성곱(Convolution)의 속도를 동시에 거머쥐려는 수학적 시도."

📖 구조화된 지식 (Synthesized Content)

상태 공간 모델(SSM)은 입력을 숨겨진 상태(State)를 거쳐 출력으로 매핑하는 제어 이론 기반의 신경망 아키텍처입니다.

  1. 동적 시스템의 수학적 모델링:
    • 입력 $x(t)$가 시스템의 내부 상태 $h(t)$를 업데이트하고, 이 상태가 다시 출력 $y(t)$를 생성하는 h'(t) = Ah(t) + Bx(t) 및 $y(t) = Ch(t)$의 미분 방정식 구조를 가짐.
  2. 이산화(Discretization)를 통한 디지털 구현:
    • 연속적인 미분 방정식을 컴퓨터가 처리할 수 있는 이산형 구조로 변환. 영차 유지(Zero-Order Hold, ZOH) 등 기법을 통해 매개변수 $\Delta$를 사용하여 상태 전이 행렬을 계산.
  3. 이중성(Duality)의 활용:
    • 순환(Recurrent) 모드: 추론 시 고정된 상태 크기를 유지하며 과거 정보를 압축 전달 (O(1) 추론 비용).
    • 합성곱(Convolutional) 모드: 학습 시 모든 타임스텝의 연산을 한꺼번에 병렬 처리하여 학습 속도 극대화.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

  • LTI(선형 시불변)의 한계 (RL Update): 초기 SSM은 모든 시점에 동일한 연산 행렬(A, B, C)을 사용하여 맥락을 능동적으로 선택하지 못하는 '망각 없는 기억'의 문제를 가짐. 이 모순은 입력에 따라 행렬이 변하는 **Selective-SSM**으로 진화하며 해결됨.
  • 정보 압축의 트레이드오프: 모든 과거 정보를 고정된 크기의 벡터에 담아야 하므로, 트랜스포머의 KV 캐시와 달리 정밀한 정보 인출(Exact Retrieval)에서 구조적 열세에 놓일 수밖에 없음.

🔗 지식 연결 (Graph)