bluemsi/2nd

Files

T

Antigravity Agent fdfbc83535 Fix: Restore unified Topics folder and reorganize specialized category folders

2026-05-02 23:25:02 +09:00

2.5 KiB

Raw Blame History

id: P-Reinforce-AUTO-QUAN-001 category: Dev confidence_score: 0.96 tags: [auto-reinforced, quantization, Deep-Learning, performance, Hardware-Optimization, llm-inference] last_reinforced: 2026-04-20

Quantization

📌 한 줄 통찰 (The Karpathy Summary)

"디지털 다이어트의 예술: 32비트 고정밀 실수로 저장된 거대 AI 모델의 가중치를 4비트나 8비트 정수로 압축하여, 성능은 거의 유지하면서 용량과 연산 속도를 1/10 수준으로 혁명적으로 줄여 스마트폰에서도 AI가 돌아가게 만드는 마법."

📖 구조화된 지식 (Synthesized Content)

양자화(Quantization)는 딥러닝 모델의 파라미터를 더 적은 비트 수의 데이터 형식으로 변환하여 효율성을 높이는 기법입니다.

주요 방식:
- PTQ (Post-Training Quantization): 학습이 끝난 모델을 변환 (빠르고 간편).
- QAT (Quantization-Aware Training): 변환 시 발생할 오차를 학습 과정에서 미리 고려 (고정밀 유지).
이점:
- Speed: 연산 처리량(Throughput) 대폭 향상. (Efficiency와 연결)
- Energy: 전력 소모 감소. (Physical-Intelligence와 연결)
- memory: 모델 크기 축소로 저사양 하드웨어 탑재 가능.
왜 중요한가?:
- AI가 서버실에만 갇혀있지 않고 우리 주머니 속 기기(On-device AI)로 내려오기 위한 필수 관문이기 때문임.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

과거 데이터와의 충돌: 과거에는 비트를 줄이면 지능 정책(Accuracy)이 심각하게 떨어진다고 믿었으나, 현대 정책은 4비트 수준에서도 고정밀 모델과 거의 차이 없는 거동 정책을 보이도록 하는 고도의 압축 알고리즘 정책(GPTQ, AWQ 등)이 개발됨(RL Update).
정책 변화(RL Update): 단순히 비트를 줄이는 정책을 넘어, 중요한 레이어는 유지하고 덜 중요한 레이어만 양자화하는 '혼합 정밀도 양자화 정책'이 표준 정책이 됨.

🔗 지식 연결 (Graph)

Efficiency, Physical-Intelligence, Deep Learning (DL), Hardware, Optimization
Modern Tech/Tools: TensorRT, GGUF (LLM), bitsandbytes, INT8/FP4 calculation.