Files
2nd/10_Wiki/Topics/LSTM_(Long_Short-Term_Memory).md
T

3.3 KiB


category: Unified tags: [auto-consolidated, technical-documentation] title: LSTM (Long Short-Term Memory))]] last_updated: 2026-05-02

LSTM (Long Short-Term Memory))]]

📌 Brief Summary

"기억할 것과 잊을 것을 스스로 결정하는 똑똑한 메모리 셀" — 기존 RNN의 고질적인 문제인 '장기 의존성(Long-term dependency)' 손실을 해결하기 위해 게이트(Gate) 구조를 도입한 순환 신경망 아키텍처.


"정보의 흐름을 열고 닫는 수도꼭지를 가진 똑똑한 메모리." 기존 RNN의 고질병인 '장기 기억 상실(Vanishing Gradient)' 문제를 해결하여, 수만 단계 이전의 정보도 잊지 않고 현재로 가져오는 시계열 데이터의 혁명이다.

📖 Core Content

  • 추출된 패턴: 정보의 흐름을 조절하는 세 가지 문(Gate)을 통해, 중요한 정보는 오래 보존하고 불필요한 정보는 즉시 지워버리는 시계열 데이터 처리 패턴.
  • 세부 내용:
    • Forget Gate: 이전 상태의 정보 중 무엇을 버릴지 결정.
    • Input Gate: 현재 입력 정보 중 무엇을 셀 상태(Cell State)에 저장할지 결정.
    • Output Gate: 갱신된 셀 상태를 바탕으로 다음 단계로 전달할 값을 결정.
    • Cell State: 컨베이어 벨트처럼 정보가 흐르며, 게이트들에 의해 정보가 추가되거나 삭제됨.

  • Cell State: 정보를 담고 흐르는 '긴 통로'. 마치 컨베이어 벨트처럼 정보를 변조 없이 전달함.
  • The Three Gates:
    • Forget Gate: 과거의 정보 중 무엇을 버릴지 결정.
    • Input Gate: 현재 들어온 정보 중 무엇을 기억할지 결정.
    • Output Gate: 현재의 기억 중 무엇을 밖으로 내보낼지 결정.
  • Utility: 번역, 주가 예측, 음성 인식 등 순서(Sequence)가 중요한 모든 분야를 평정했던 모델이다.

⚖️ Trade-offs & Caveats

  • 과거 데이터와의 충돌: 자연어 처리의 독보적 존재였으나, 병렬 연산이 불가능한 순차적 구조라는 한계 때문에 현재는 트랜스포머(Transformer) 아키텍처에 자리를 내줌. 하지만 음성 인식이나 시계열 수치 예측 분야에서는 여전히 활용됨.
  • 정책 변화: Antigravity 프로젝트의 센서 데이터 분석(Telemetry) 및 사용자 활동 패턴 예측 시, 가벼운 LSTM 모델을 보조적으로 운용함.

  • LSTM은 시계열 데이터 처리에 강력하지만, 순차적으로 연산해야 하므로 성능 스케일링(병렬 처리)이 어렵다. 현재는 모든 시점을 동시에 바라보는 트랜스포머(Transformer) 아키텍처에 왕좌를 내어주었으나, 데이터가 적거나 초저지연 하드웨어 구현이 필요한 특수 분야에서는 여전히 현역으로 활동 중이다.

🔗 Knowledge Connections