---
id: AI-OPT-QUAN-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 1.0
tags: [ai, [[Deep-Learning|Deep-Learning]], [[Quantization|Quantization]], [[Model-Compression|Model-Compression]], int8, fp16, [[Optimization|Optimization]], inference-speedup]
last_reinforced: 2026-04-26
---

# Quantization Foundations (양자화 기초)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "정밀한 부동소수점(FP32)의 사치를 버리고 거친 정수(INT8)의 효율을 선택하여, 지능을 비트 단위로 압축하고 실행 속도를 극한으로 끌어올려라" — 신경망의 가중치와 활성화 함수 값을 더 낮은 비트의 정밀도로 표현함으로써 모델 크기를 줄이고 추론 속도를 높이는 최적화 기술.

## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** "Precision-Throughput Tradeoff and Range Mapping" — 32비트 부동소수점 데이터를 8비트 정수 등으로 매핑할 때 정보 손실을 최소화하기 위해 스케일(Scale)과 제로포인트(Zero-point)를 계산하고, 하드웨어의 정수 연산 가속기(Tensor Cores 등)를 최대한 활용하는 패턴.
- **주요 기법:**
    - **PTQ (Post-Training Quantization):** 학습이 끝난 모델을 간단한 보정(Calibration)을 통해 즉시 양자화. 편리함.
    - **QAT (Quantization Aware Training):** 학습 과정에서 양자화로 인한 오차를 미리 고려하여 학습. 높은 정확도 유지.
    - **Weight-only vs Full Quantization:** 가중치만 줄일지, 연산 과정 전체를 줄일지의 차이.
- **의의:** 수백 기가바이트의 LLM 모델을 일반 PC나 모바일 기기 메모리에 담을 수 있게 하는 '마법 같은 다이어트' 기술이며, 엣지 컴퓨팅의 필수 요건.

## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 비트를 줄이면 지능이 크게 떨어질 것이라는 초기 우려와 달리, 현대의 4비트(NF4) 혹은 8비트 양자화 기술은 32비트 원본 대비 성능 저하를 1~2% 내외로 방어하며 실용성을 입증함.
- **정책 변화:** Antigravity 프로젝트는 에이전트의 온디바이스 배포 및 추론 비용 절감을 위해, 모든 주력 모델에 대해 INT8 혹은 FP16 양자화를 기본 적용함.

## 🔗 지식 연결 (Graph)
- [[Pruning-Techniques|Pruning-Techniques]], Model-Compression-and-Deployment, [[NVIDIA-CUDA-and-AI|NVIDIA-CUDA-and-AI]], [[Optimization-in-AI|Optimization-in-AI]]
- **Raw Source:** 10_Wiki/Topics/AI/Quantization-Foundations.md