2.5 KiB
2.5 KiB
id, category, confidence_score, tags, last_reinforced
| id | category | confidence_score | tags | last_reinforced | ||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| AI-OPT-QUAN-001 | Unified | 1.0 |
|
2026-04-26 |
Quantization Foundations (양자화 기초)
📌 한 줄 통찰 (The Karpathy Summary)
"정밀한 부동소수점(FP32)의 사치를 버리고 거친 정수(INT8)의 효율을 선택하여, 지능을 비트 단위로 압축하고 실행 속도를 극한으로 끌어올려라" — 신경망의 가중치와 활성화 함수 값을 더 낮은 비트의 정밀도로 표현함으로써 모델 크기를 줄이고 추론 속도를 높이는 최적화 기술.
📖 구조화된 지식 (Synthesized Content)
- 추출된 패턴: "Precision-Throughput Tradeoff and Range Mapping" — 32비트 부동소수점 데이터를 8비트 정수 등으로 매핑할 때 정보 손실을 최소화하기 위해 스케일(Scale)과 제로포인트(Zero-point)를 계산하고, 하드웨어의 정수 연산 가속기(Tensor Cores 등)를 최대한 활용하는 패턴.
- 주요 기법:
- PTQ (Post-Training Quantization): 학습이 끝난 모델을 간단한 보정(Calibration)을 통해 즉시 양자화. 편리함.
- QAT (Quantization Aware Training): 학습 과정에서 양자화로 인한 오차를 미리 고려하여 학습. 높은 정확도 유지.
- Weight-only vs Full Quantization: 가중치만 줄일지, 연산 과정 전체를 줄일지의 차이.
- 의의: 수백 기가바이트의 LLM 모델을 일반 PC나 모바일 기기 메모리에 담을 수 있게 하는 '마법 같은 다이어트' 기술이며, 엣지 컴퓨팅의 필수 요건.
⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- 과거 데이터와의 충돌: 비트를 줄이면 지능이 크게 떨어질 것이라는 초기 우려와 달리, 현대의 4비트(NF4) 혹은 8비트 양자화 기술은 32비트 원본 대비 성능 저하를 1~2% 내외로 방어하며 실용성을 입증함.
- 정책 변화: Antigravity 프로젝트는 에이전트의 온디바이스 배포 및 추론 비용 절감을 위해, 모든 주력 모델에 대해 INT8 혹은 FP16 양자화를 기본 적용함.
🔗 지식 연결 (Graph)
- Pruning-Techniques, Model-Compression-and-Deployment, NVIDIA-CUDA-and-AI, Optimization-in-AI
- Raw Source: 10_Wiki/Topics/AI/Quantization-Foundations.md