【GOOGLE】Gemma 4 12B:统一无编码器多模态模型

Google 发布 Gemma 4 12B,一款面向笔记本的中型统一无编码器多模态模型,支持原生音频与视觉输入,能在 16GB VRAM/统一内存的设备上本地运行,并在多步推理与 agentic 工作流上接近 26B MoE 的基准表现。模型以低内存占用、开源(Apache 2.0)与开发者生态兼容为亮点,配套发布了开发指南、技能库和多种本地/云端部署路径。

  • 概要
  • Gemma 4 12B 是 Google DeepMind 发布的中型多模态模型,定位介于面向边缘的 E4B 与更大的 26B 混合专家模型之间。
  • 重点面向笔记本和边缘设备:可在 16GB VRAM 或统一内存的消费级设备上本地运行。

  • 架构与技术亮点

  • 统一无编码器(encoder-free):视觉和音频输入直接进入 LLM 骨干,避免了传统多模态模型中独立编码器带来的延迟与内存开销。
  • 视觉处理:将视觉编码器替换为轻量嵌入模块(单次矩阵乘法、位置嵌入与归一化),把更多处理任务交给 LLM。
  • 音频处理:移除音频编码器,将原始音频投影到与文本 token 同维空间,作为原生输入。
  • 多步推理与 agentic 能力:在常规基准上接近 26B MoE 的表现,支持更复杂的推理与代理式工作流。
  • 延迟优化:内置 Multi-Token Prediction (MTP) drafters 以降低推理延迟。

  • 可用性与生态

  • 开源许可:Apache 2.0 许可发布,便于研究与工程集成。
  • 下载与试用:权重在 Hugging Face 与 Kaggle 可得;可通过 LM Studio、Ollama、Google AI Edge Gallery、Eloquent 应用与 LiteRT-LM CLI 快速试验。
  • 开发与部署:提供开发者指南、快速入门 notebook;兼容 Hugging Face Transformers、llama.cpp、MLX、SGLang、vLLM 等推理库,支持用 Unsloth 做高效微调。
  • Agent 与技能:同步发布官方 Skills Repository,以便构建基于 Gemma 的 agent 能力;也可在 Google Cloud(Model Garden、Cloud Run、GKE)中部署端点。

  • 目标场景

  • 在本地设备上运行的多模态 agent、低延迟交互式应用、需要音视频原生输入的推理任务,以及资源受限环境下的研发和原型验证。

  • 链接与资源

  • 官方开发者指南、技能库与权重下载页面(详见博客原文与配套资源)。

将多模态编码器内消并把输入原生送入 LLM 是节省资源的实用路线,但需关注小模型下的视觉/音频细节处理和泛化性能。

原文链接

Leave a Comment