Files
2nd/10_Wiki/Topics/Quantization-Foundations.md
T
2026-05-02 23:33:34 +09:00

2.5 KiB

id, category, confidence_score, tags, last_reinforced
id category confidence_score tags last_reinforced
AI-OPT-QUAN-001 Unified 1.0
ai
Deep-Learning|Deep-Learning
Quantization|Quantization
Model-Compression|Model-Compression
int8
fp16
Optimization|Optimization
inference-speedup
2026-04-26

Quantization Foundations (양자화 기초)

📌 한 줄 통찰 (The Karpathy Summary)

"정밀한 부동소수점(FP32)의 사치를 버리고 거친 정수(INT8)의 효율을 선택하여, 지능을 비트 단위로 압축하고 실행 속도를 극한으로 끌어올려라" — 신경망의 가중치와 활성화 함수 값을 더 낮은 비트의 정밀도로 표현함으로써 모델 크기를 줄이고 추론 속도를 높이는 최적화 기술.

📖 구조화된 지식 (Synthesized Content)

  • 추출된 패턴: "Precision-Throughput Tradeoff and Range Mapping" — 32비트 부동소수점 데이터를 8비트 정수 등으로 매핑할 때 정보 손실을 최소화하기 위해 스케일(Scale)과 제로포인트(Zero-point)를 계산하고, 하드웨어의 정수 연산 가속기(Tensor Cores 등)를 최대한 활용하는 패턴.
  • 주요 기법:
    • PTQ (Post-Training Quantization): 학습이 끝난 모델을 간단한 보정(Calibration)을 통해 즉시 양자화. 편리함.
    • QAT (Quantization Aware Training): 학습 과정에서 양자화로 인한 오차를 미리 고려하여 학습. 높은 정확도 유지.
    • Weight-only vs Full Quantization: 가중치만 줄일지, 연산 과정 전체를 줄일지의 차이.
  • 의의: 수백 기가바이트의 LLM 모델을 일반 PC나 모바일 기기 메모리에 담을 수 있게 하는 '마법 같은 다이어트' 기술이며, 엣지 컴퓨팅의 필수 요건.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

  • 과거 데이터와의 충돌: 비트를 줄이면 지능이 크게 떨어질 것이라는 초기 우려와 달리, 현대의 4비트(NF4) 혹은 8비트 양자화 기술은 32비트 원본 대비 성능 저하를 1~2% 내외로 방어하며 실용성을 입증함.
  • 정책 변화: Antigravity 프로젝트는 에이전트의 온디바이스 배포 및 추론 비용 절감을 위해, 모든 주력 모델에 대해 INT8 혹은 FP16 양자화를 기본 적용함.

🔗 지식 연결 (Graph)