Google 推出 Gemini 3.1 Flash‑Lite,面向高频量级工作负载的低成本高性能模型,已在 AI Studio(通过 Gemini API)和 Vertex AI 企业预览中提供。官方宣称其在延迟与吞吐上显著优于 2.5 Flash,适用于翻译、内容审核、界面生成与大规模模拟等场景。
概述
- 模型:Gemini 3.1 Flash‑Lite
- 上线:开发者预览(Gemini API / Google AI Studio),企业通过 Vertex AI
- 定价:$0.25 / 1M 输入 tokens;$1.50 / 1M 输出 tokens
性能与定位
- 速度:据称比 2.5 Flash 在首答时间快 2.5 倍,输出速度提升约 45%
- 质量:在 Arena.ai、GPQA Diamond、MMMU Pro 等基准上表现优异,并能匹配或超越此前更大版本的部分能力
- 低延迟与高吞吐:专为高频实时交互和大规模批量处理设计
功能与适用场景
- 支持可调“思考层级”(thinking levels),便于在性能与推理深度间权衡
- 典型场景:大规模翻译、内容审核、批量生成用户界面与仪表盘、实时仿真、SaaS 代理执行多步任务、图像内容分析与分类
早期用户与反馈
- 已有公司(如 Latitude、Cartwheel、Whering)在内测中使用,反馈指出模型在效率与推理能力上表现良好,能处理复杂输入并遵循指令
注意事项
- Google 表示生成的摘要/示例由其 AI 生成,且生成式 AI 属实验性质;实际效果和成本需在自有工作负载中验证。
这是面向高并发、成本敏感场景的务实之作,但实际质量与延迟表现仍需在自有数据与服务中验证。