【GOOGLE】Gemini 3.1 Flash Live 推出

Google 推出 Gemini 3.1 Flash Live 音频模型，主打更低延迟、更高自然度和更稳健的多轮对话理解，适用于开发者、企业和大众场景；模型在多项音频基准上领先并支持实时多语言交互，输出音频含可识别水印以减少误导。该模型已通过 Gemini Live API、企業客戶方案及 Search Live 等渠道上线并扩展到 200 多个国家与地区。

概览

名称：Gemini 3.1 Flash Live
定位：Google 当前最高质量的实时语音/音频模型，面向语音优先交互场景
可用性：开发者通过 Gemini Live API 预览，企業可在 Gemini Enterprise for Customer Experience 使用，普通用户通过 Search Live 与 Gemini Live 体验

主要改进点

速度与延迟：响应更快，提升实时对话流畅性
语调理解：增强对音高、语速、情绪（如沮丧、困惑）等声学细节的识别，能动态调整回复风格
长对话保持：在多轮会话中能跟踪更长的上下文，保持思路连续
噪声与复杂任务：在有中断、犹豫和噪声的真实音频中表现更稳健，适合复杂任务执行与多步函数调用

基准与验证

ComplexFuncBench Audio：以 90.8% 领先此前版本（涉及多步函数调用与约束）
Scale AI Audio MultiChallenge：在开启“思考”模式下以 36.1% 表现领先（评测复杂指令跟随与长程推理能力）

部署与生态反馈

已在 Gemini Live、Search Live 中替换为后端模型，带来更快、更自然的响应体验
支持超过 200 个国家/地区的实时多语言对话
企业整合示例：Verizon、LiveKit、The Home Depot 等给出正面反馈，称提升了自然对话质量与客户体验

安全与治理

所有由 3.1 Flash Live 生成的音频包含水印，用于帮助识别和减少错误信息传播
Google 提醒生成式 AI 仍属实验性质，并在产品页面声明相关限制

适用场景（示例）

语音客服与 CX 自动化：理解情绪并动态调整应答策略
实时语音助手与搜索：更自然的多轮问答和复杂任务跟踪
噪声环境下的语音交互：提高鲁棒性以完成多步骤操作

如何接入

开发者：通过 Google AI Studio 中的 Gemini Live API 预览接入
企业：通过 Gemini Enterprise for Customer Experience 集成
终端用户：在支持地区通过 Search Live 与 Gemini Live 体验

这版着重提升实时性与情感感知，有助于把语音智能从查询助手推向更复杂的对话代理。

原文链接

Leave a Comment Cancel reply