Google 发布 Gemma 4 12B,一款面向笔记本的中型统一无编码器多模态模型,支持原生音频与视觉输入,能在 16GB VRAM/统一内存的设备上本地运行,并在多步推理与 agentic 工作流上接近 26B MoE 的基准表现。模型以低内存占用、开源(Apache 2.0)与开发者生态兼容为亮点,配套发布了开发指南、技能库和多种本地/云端部署路径。
- 概要
- Gemma 4 12B 是 Google DeepMind 发布的中型多模态模型,定位介于面向边缘的 E4B 与更大的 26B 混合专家模型之间。
-
重点面向笔记本和边缘设备:可在 16GB VRAM 或统一内存的消费级设备上本地运行。
-
架构与技术亮点
- 统一无编码器(encoder-free):视觉和音频输入直接进入 LLM 骨干,避免了传统多模态模型中独立编码器带来的延迟与内存开销。
- 视觉处理:将视觉编码器替换为轻量嵌入模块(单次矩阵乘法、位置嵌入与归一化),把更多处理任务交给 LLM。
- 音频处理:移除音频编码器,将原始音频投影到与文本 token 同维空间,作为原生输入。
- 多步推理与 agentic 能力:在常规基准上接近 26B MoE 的表现,支持更复杂的推理与代理式工作流。
-
延迟优化:内置 Multi-Token Prediction (MTP) drafters 以降低推理延迟。
-
可用性与生态
- 开源许可:Apache 2.0 许可发布,便于研究与工程集成。
- 下载与试用:权重在 Hugging Face 与 Kaggle 可得;可通过 LM Studio、Ollama、Google AI Edge Gallery、Eloquent 应用与 LiteRT-LM CLI 快速试验。
- 开发与部署:提供开发者指南、快速入门 notebook;兼容 Hugging Face Transformers、llama.cpp、MLX、SGLang、vLLM 等推理库,支持用 Unsloth 做高效微调。
-
Agent 与技能:同步发布官方 Skills Repository,以便构建基于 Gemma 的 agent 能力;也可在 Google Cloud(Model Garden、Cloud Run、GKE)中部署端点。
-
目标场景
-
在本地设备上运行的多模态 agent、低延迟交互式应用、需要音视频原生输入的推理任务,以及资源受限环境下的研发和原型验证。
-
链接与资源
- 官方开发者指南、技能库与权重下载页面(详见博客原文与配套资源)。
将多模态编码器内消并把输入原生送入 LLM 是节省资源的实用路线,但需关注小模型下的视觉/音频细节处理和泛化性能。