【GOOGLE】Gemma 4 QAT：为移动端压缩优化

Google 发布了针对 Gemma 4 的 Quantization-Aware Training (QAT) 检查点，包含 Q4_0 格式和专为移动端设计的新量化方案，以显著降低内存占用并最大化设备端性能；E2B 文本模型在移动专用量化下可降到约 1GB 内存。QAT 在训练中模拟量化，较传统后训练量化（PTQ）能保留更高质量，同时通过静态激活、通道化量化和针对性 2-bit 压缩优化移动推理。

要点概览

发布内容：Gemma 4 新的 QAT 检查点，支持流行的 Q4_0 格式与一个移动专用量化格式。
目标：显著减少 VRAM/存储占用，提升在手机、笔记本和消费级 GPU 上的运行效率，同时尽量保持模型质量。

为什么使用 QAT

QAT 在训练阶段模拟量化，避免单纯 PTQ 带来的性能退化。
对比 PTQ，Google 报告 QAT 能在保留质量的同时进一步提升整体性能。

移动端专用量化设计（工程细节）

静态激活（Static activations）：训练时预计算缩放参数，减少移动芯片运行时开销。
通道级量化（Channel-wise quantization）：按通道结构化数据以贴合移动加速器的计算方式，避免慢速替代实现。
针对性 2-bit 量化：对生成 token 的部分采用高压缩（2-bit），而推理/推理关键层维持较高精度以保能力。
Embedding 与 KV cache 优化：重点压缩词表与短期记忆，显著降低活动内存占用，支持更长对话。
可按需裁剪模态：若不需要音频/视觉编码器，可只部署文本模态以进一步节省内存（例如 E2B 文本模型可低于 1 GB）。

实际影响

更低的内存门槛：例如 Gemma 4 E2B 在移动量化下内存占用约 1 GB，便于在常见边缘设备和消费 GPU 上本地运行。
保持模型能力：在作者描述中，QAT 检查点在压缩后仍保留了 Gemma 4 的核心能力和质量。

生态与可用性

Google 已与主流开发工具生态合作，开始支持这些 QAT 检查点，方便开发者在现有工作流中使用。

限制与注意事项

文章未给出完整的基准数据或和其他量化方案的详细对比数值。
未详述移动量化在不同设备（如各代手机芯片或不同 GPU）上的稳定兼容性和性能差异。

如何开始

可从 Google 提供的渠道下载 QAT 检查点并在支持的开发工具中加载以测试在目标设备上的表现。

这是把大模型推向普通设备的实用一步，但仍需更多公开基准和跨设备兼容性数据来验证表现。

原文链接

Leave a Comment Cancel reply