Hardware Acceleration for AI (AI 하드웨어 가속)

📌 한 줄 통찰 (The Karpathy Summary)

"범용성을 포기하고 연산의 본질(Matrix Math)에만 모든 하드웨어 자원을 쏟아부어 성능의 한계를 돌파하라" — 인공지능 학습과 추론에 필요한 거대한 규모의 행렬 연산을 CPU보다 수십~수백 배 빠르게 처리하기 위해 설계된 특수 목적 하드웨어 및 그 가속 기술.

추출된 패턴: 딥러닝 연산의 90% 이상을 차지하는 곱셈-누산(MAC) 연산을 저전력으로 초고속 처리하기 위해 연산 유닛을 격자 형태로 배치하는 시스톨릭 어레이(Systolic Array) 아키텍처 패턴.
주요 가속기 종류:
- GPU (Graphics Processing Unit): 수천 개의 코어를 이용한 범용 병렬 처리의 강자.
- TPU (Tensor Processing Unit): 구글이 개발한 텐서 연산 특화 ASIC.
- NPU (Neural Processing Unit): 모바일 및 엣지 기기에서 저전력 AI 연산에 특화.
- FPGA: 회로를 직접 프로그래밍하여 특정 알고리즘에 맞춤화된 성능 제공.
핵심 기술:
- Mixed Precision: FP32 대신 FP16, BF16, INT8 등 낮은 정밀도를 사용하여 연산량과 메모리 사용량 절감.
- Quantization: 모델 가중치를 낮은 비트로 변환하여 가속화.
의의: 하드웨어의 혁신이 모델의 대형화와 실시간 서빙을 가능케 하는 AI 발전의 물리적 동력.

과거 데이터와의 충돌: 하드웨어는 주어진 것이라는 인식에서 벗어나, 이제는 알고리즘에 맞춰 하드웨어를 설계(HW-SW Co-design)하는 시대로 진화.
GPU-Architecture-for-AI 문서와 연계하여, 각 가속기별 최적화 전략의 차이를 명확히 인지해야 함.

GPU-Architecture-for-AI, System-Design-for-AI-Scale, Deep-Learning-Foundations, Edge-AI-and-Computing
Raw Source: 10_Wiki/Topics/AI/Hardware-Acceleration-for-AI.md