【GOOGLE】Gemma 4 推出多标记预测加速器

Google 为 Gemma 4 发布了 Multi-Token Prediction(MTP)drafters,采用投机解码架构在不牺牲输出质量和推理逻辑的前提下实现最高约 3 倍的推理速度提升,适配从边缘设备到云端的多种部署场景。MTP 通过让轻量 drafter 预测多标记并由主模型并行验证,显著降低内存带宽瓶颈带来的延迟,提升实时交互和本地离线工作负载的响应性。

概述
– 目标:通过 Multi-Token Prediction(MTP)drafters 提升 Gemma 4 家族的推理吞吐与响应速度。
– 核心收益:在多种框架和硬件(LiteRT-LM、MLX、Hugging Face Transformers、vLLM)上可观测到 tokens/s 提升,最长可达 ~3x,加速而不降低最终输出质量。

技术原理(投机解码)
– 问题:标准自回归生成受内存带宽限制,GPU/CPU 大量时间用于在 VRAM 与计算单元间移动参数,导致算力未充分利用与高延迟。
– 方案:用轻量 drafter 并行预测多个未来 token(草稿序列),主模型并行验证草稿并在通过时一次性接受整个序列并额外生成一个 token,从而在生成一个 token 的时间内产出更多内容。
– 优势:把预测与验证解耦,利用空闲计算提前做预测,减少总体等待时间而保持主模型的校验与最终质量。

实现细节与优化
– KV 缓存共享:drafters 无需重复计算上下文,直接复用目标模型的激活与 KV cache,减少额外计算与内存开销。
– 边缘优化:针对 E2B / E4B 等边缘模型,优化了最终 logit 计算以缓解该步骤的瓶颈。

开发者受益场景
– 实时应用:聊天、语音交互和需要低延迟多步规划的 agent,可显著提升响应性。
– 本地/离线开发:在个人机和消费级 GPU 上运行 26B MoE 与 31B Dense 模型时,能实现更流畅的复杂推理与编码辅助。
– 设备端省电:提高输出速度有助于缩短活跃计算时间,节省电池能耗。

兼容性与验证
– 在多种推理引擎与硬件上进行了测试和验证,宣称无质量退化(因为最终由 Gemma 4 进行验证)。

MTP 的投机解码在硬件受限场景下是务实的工程改进,但关键在于不同任务与模型规模下的实际加速与一致性验证。

原文链接

Leave a Comment