Google 发布了针对 Gemma 4 的 Quantization-Aware Training (QAT) 检查点,包含 Q4_0 格式和专为移动端设计的新量化方案,以显著降低内存占用并最大化设备端性能;E2B 文本模型在移动专用量化下可降到约 1GB 内存。QAT 在训练中模拟量化,较传统后训练量化(PTQ)能保留更高质量,同时通过静态激活、通道化量化和针对性 2-bit 压缩优化移动推理。
要点概览
- 发布内容:Gemma 4 新的 QAT 检查点,支持流行的 Q4_0 格式与一个移动专用量化格式。
- 目标:显著减少 VRAM/存储占用,提升在手机、笔记本和消费级 GPU 上的运行效率,同时尽量保持模型质量。
为什么使用 QAT
- QAT 在训练阶段模拟量化,避免单纯 PTQ 带来的性能退化。
- 对比 PTQ,Google 报告 QAT 能在保留质量的同时进一步提升整体性能。
移动端专用量化设计(工程细节)
- 静态激活(Static activations):训练时预计算缩放参数,减少移动芯片运行时开销。
- 通道级量化(Channel-wise quantization):按通道结构化数据以贴合移动加速器的计算方式,避免慢速替代实现。
- 针对性 2-bit 量化:对生成 token 的部分采用高压缩(2-bit),而推理/推理关键层维持较高精度以保能力。
- Embedding 与 KV cache 优化:重点压缩词表与短期记忆,显著降低活动内存占用,支持更长对话。
- 可按需裁剪模态:若不需要音频/视觉编码器,可只部署文本模态以进一步节省内存(例如 E2B 文本模型可低于 1 GB)。
实际影响
- 更低的内存门槛:例如 Gemma 4 E2B 在移动量化下内存占用约 1 GB,便于在常见边缘设备和消费 GPU 上本地运行。
- 保持模型能力:在作者描述中,QAT 检查点在压缩后仍保留了 Gemma 4 的核心能力和质量。
生态与可用性
- Google 已与主流开发工具生态合作,开始支持这些 QAT 检查点,方便开发者在现有工作流中使用。
限制与注意事项
- 文章未给出完整的基准数据或和其他量化方案的详细对比数值。
- 未详述移动量化在不同设备(如各代手机芯片或不同 GPU)上的稳定兼容性和性能差异。
如何开始
- 可从 Google 提供的渠道下载 QAT 检查点并在支持的开发工具中加载以测试在目标设备上的表现。
这是把大模型推向普通设备的实用一步,但仍需更多公开基准和跨设备兼容性数据来验证表现。