2026/5/21 21:52:21
网站建设
项目流程
微信h5商城网站,wordpress怎么修改html代码,服装设计以及网页设计素材,管理系统界面设计标签: #LLM #Quantization #AWQ #GPTQ #CUDA #Inference 🧮 前言:显存的数学题
为什么我们需要量化?让我们做个简单的算术。 FP16 (16-bit Floating Point): 每个参数占 2 Bytes。 INT4 (4-bit Integer): 每个参数占 0.5 Bytes。 对于一个 70B (700亿参数) 的模型: FP16…标签:#LLM #Quantization #AWQ #GPTQ #CUDA #Inference🧮 前言:显存的数学题为什么我们需要量化?让我们做个简单的算术。FP16 (16-bit Floating Point): 每个参数占 2 Bytes。INT4 (4-bit Integer): 每个参数占 0.5 Bytes。对于一个70B (700亿参数)的模型:FP16 显存需求: GBINT4 显存需求: GB结论:量化是让大模型走入寻常百姓家的唯一路径。虽然单卡 3090 (24GB) 跑 70B 4-bit 仍需 CPU 卸载(速度慢),但它完美适配了Yi-34B(约 18GB) 或Qwen-1.5-32B,让这些强大的模型在单卡上健步如飞。💡 一、 GPTQ:数学家的暴力美学GPTQ (Generative Pre-trained Transformer Quantization)是基于 OBS (Optimal Brain Surgeon) 理论的量化方法。