Google 推出开源实验性模型 DiffusionGemma,采用文本扩散(diffusion)方法一次并行生成整块文本,在专用 GPU 上比自回归模型快约 4 倍,适合对延迟敏感的本地交互式工作流,但在整体质量上低于 Gemma 4,仍以研究与开发用途为主。
简介
– DiffusionGemma 是 Google 开源的 26B Mixture of Experts (MoE) 实验模型,采用 Apache 2.0 许可证发布。
– 核心创新是用扩散式生成头(diffusion head)替代逐令牌自回归生成,支持并行生成整块文本。
主要特性
– 超低延迟:在专用 GPU 上实现最高约 4x 的生成速度(例如单卡 NVIDIA H100 可达 1000+ token/s,GeForce RTX 5090 可达 700+ token/s)。
– 节省显存:模型总规模 26B,但推理时仅激活约 3.8B 参数,量化后可在高端消费 GPU(约 18GB VRAM)上运行。
– 双向注意力:每次前向并行生成 256 个 token,所有 token 互相注意,有利于非线性任务如行内编辑、代码补全、氨基酸序列或数学图形。
– 自我迭代修正:模型可对整体文本进行多次细化以修正错误。
适用场景与权衡
– 适合对速度和交互延迟敏感的本地/单用户场景:行内编辑、快速迭代、非线性文本结构生成等。
– 质量折衷:为了速度牺牲了一定的文本质量;对质量有严格要求的生产环境仍建议使用标准 Gemma 4。
– 可通过在特定任务上微调来提升性能;示例:Unsloth 将其微调用于解数独,借助双向注意力表现优于自回归模型。
研发意义
– 将文本扩散方法扩展到大模型并优化硬件使用路径,把解码瓶颈从内存带宽转向计算密集型操作,从而提升本地推理效率。
获取与建议
– 开源可用,面向研究者和开发者探索速度关键型本地工作流。
– 在对延迟优先而非极致质量的场景进行评估与微调。
DiffusionGemma 在本地交互型应用上开辟了实用路径,但生产质量仍需依赖 Gemma 4 或定制微调。