【GOOGLE】DiffusionGemma：四倍更快文本生成

Google 推出开源实验性模型 DiffusionGemma，采用文本扩散（diffusion）方法一次并行生成整块文本，在专用 GPU 上比自回归模型快约 4 倍，适合对延迟敏感的本地交互式工作流，但在整体质量上低于 Gemma 4，仍以研究与开发用途为主。

简介
– DiffusionGemma 是 Google 开源的 26B Mixture of Experts (MoE) 实验模型，采用 Apache 2.0 许可证发布。
– 核心创新是用扩散式生成头（diffusion head）替代逐令牌自回归生成，支持并行生成整块文本。

主要特性
– 超低延迟：在专用 GPU 上实现最高约 4x 的生成速度（例如单卡 NVIDIA H100 可达 1000+ token/s，GeForce RTX 5090 可达 700+ token/s）。
– 节省显存：模型总规模 26B，但推理时仅激活约 3.8B 参数，量化后可在高端消费 GPU（约 18GB VRAM）上运行。
– 双向注意力：每次前向并行生成 256 个 token，所有 token 互相注意，有利于非线性任务如行内编辑、代码补全、氨基酸序列或数学图形。
– 自我迭代修正：模型可对整体文本进行多次细化以修正错误。

适用场景与权衡
– 适合对速度和交互延迟敏感的本地/单用户场景：行内编辑、快速迭代、非线性文本结构生成等。
– 质量折衷：为了速度牺牲了一定的文本质量；对质量有严格要求的生产环境仍建议使用标准 Gemma 4。
– 可通过在特定任务上微调来提升性能；示例：Unsloth 将其微调用于解数独，借助双向注意力表现优于自回归模型。

研发意义
– 将文本扩散方法扩展到大模型并优化硬件使用路径，把解码瓶颈从内存带宽转向计算密集型操作，从而提升本地推理效率。

获取与建议
– 开源可用，面向研究者和开发者探索速度关键型本地工作流。
– 在对延迟优先而非极致质量的场景进行评估与微调。

DiffusionGemma 在本地交互型应用上开辟了实用路径，但生产质量仍需依赖 Gemma 4 或定制微调。

原文链接

Leave a Comment Cancel reply