Quantization Foundations (양자화 기초)

📌 한 줄 통찰 (The Karpathy Summary)

"정밀한 부동소수점(FP32)의 사치를 버리고 거친 정수(INT8)의 효율을 선택하여, 지능을 비트 단위로 압축하고 실행 속도를 극한으로 끌어올려라" — 신경망의 가중치와 활성화 함수 값을 더 낮은 비트의 정밀도로 표현함으로써 모델 크기를 줄이고 추론 속도를 높이는 최적화 기술.

📖 구조화된 지식 (Synthesized Content)

추출된 패턴: "Precision-Throughput Tradeoff and Range Mapping" — 32비트 부동소수점 데이터를 8비트 정수 등으로 매핑할 때 정보 손실을 최소화하기 위해 스케일(Scale)과 제로포인트(Zero-point)를 계산하고, 하드웨어의 정수 연산 가속기(Tensor Cores 등)를 최대한 활용하는 패턴.
주요 기법:
- PTQ (Post-Training Quantization): 학습이 끝난 모델을 간단한 보정(Calibration)을 통해 즉시 양자화. 편리함.
- QAT (Quantization Aware Training): 학습 과정에서 양자화로 인한 오차를 미리 고려하여 학습. 높은 정확도 유지.
- Weight-only vs Full Quantization: 가중치만 줄일지, 연산 과정 전체를 줄일지의 차이.
의의: 수백 기가바이트의 LLM 모델을 일반 PC나 모바일 기기 메모리에 담을 수 있게 하는 '마법 같은 다이어트' 기술이며, 엣지 컴퓨팅의 필수 요건.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

과거 데이터와의 충돌: 비트를 줄이면 지능이 크게 떨어질 것이라는 초기 우려와 달리, 현대의 4비트(NF4) 혹은 8비트 양자화 기술은 32비트 원본 대비 성능 저하를 1~2% 내외로 방어하며 실용성을 입증함.
정책 변화: Antigravity 프로젝트는 에이전트의 온디바이스 배포 및 추론 비용 절감을 위해, 모든 주력 모델에 대해 INT8 혹은 FP16 양자화를 기본 적용함.

🔗 지식 연결 (Graph)

Pruning-Techniques, Model-Compression-and-Deployment, NVIDIA-CUDA-and-AI, Optimization-in-AI
Raw Source: 10_Wiki/Topics/AI/Quantization-Foundations.md

2.5 KiB Raw Blame History

Quantization Foundations (양자화 기초)

📌 한 줄 통찰 (The Karpathy Summary)

📖 구조화된 지식 (Synthesized Content)

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

🔗 지식 연결 (Graph)

2.5 KiB

Raw Blame History