FlashAttention

📌 한 줄 통찰 (The Karpathy Summary)

"메모리 대역폭의 병목을 하드웨어 인식 알고리즘으로 우회하여, 거대 모델이 '긴 기억'을 유지하면서도 비약적인 속도로 연산할 수 있게 만드는 현대 LLM의 산소 호흡기."

FlashAttention은 GPU의 고속 메모리 계층을 직접 제어하여 입출력(IO) 오버헤드를 극대화로 줄인 차세대 어텐션 알고리즘입니다.

하드웨어 인식형(IO-Aware) 설계:
- GPU의 **HBM(Main Memory)**과 SRAM(Fast Cache) 간의 데이터 이동이 연산 속도보다 훨씬 느리다는 점에 착안.
- 타일링(Tiling) 기법을 통해 어텐션 행렬 전체를 메모리에 올리지 않고, SRAM 내에서 연산을 완결한 후 결과만 HBM에 기록.
연산 효율 및 맥락 확장:
- 메모리 효율: 시퀀스 길이에 따른 메모리 요구량을 제곱(O(N^2))에서 선형(O(N)) 수준으로 최적화하여 OOM(Out-Of-Memory) 문제를 근본적으로 해결.
- 속도 개선: FlashAttention-4 기준으로 cuDNN 대비 최대 1.3배, 표준 어텐션 대비 수배 이상의 속도 향상을 달성.
생태계 호환성:
- 원본 어텐션의 수학적 정확도를 유지하면서 구현 방식만 최적화하므로, E2LLM, LongLoRA 등 다양한 맥락 확장 기술과 즉시 결합 가능.

메모리 절감의 한계 (RL Update): FlashAttention 자체가 이미 Peak Memory를 극한으로 낮춰놓았기 때문에, 여기에 Sparse Attention(희소 어텐션) 기법을 추가해도 사용자가 체감하는 추가적인 메모리 이득은 크지 않음(수익 체감의 법칙).
하드웨어 의존성 심화: 최신 모델들이 FlashAttention의 최적화에 극도로 의존하게 되면서, 이를 지원하지 않는 구형 하드웨어나 타 아키텍처에서는 모델 성능을 온전히 발휘하기 어려운 '기술적 고착(Lock-in)' 현상이 발생함.

GPU-Memory-Hierarchy, E2LLM, Attention-Mechanism, Mamba (Hardware-aware parallel scan 공유)
Raw Source: Datacollector_MAC/out_wiki/FlashAttention.md