Google 推出 Gemini 3.1 Flash Live 音频模型,主打更低延迟、更高自然度和更稳健的多轮对话理解,适用于开发者、企业和大众场景;模型在多项音频基准上领先并支持实时多语言交互,输出音频含可识别水印以减少误导。该模型已通过 Gemini Live API、企業客戶方案及 Search Live 等渠道上线并扩展到 200 多个国家与地区。
概览
- 名称:Gemini 3.1 Flash Live
- 定位:Google 当前最高质量的实时语音/音频模型,面向语音优先交互场景
- 可用性:开发者通过 Gemini Live API 预览,企業可在 Gemini Enterprise for Customer Experience 使用,普通用户通过 Search Live 与 Gemini Live 体验
主要改进点
- 速度与延迟:响应更快,提升实时对话流畅性
- 语调理解:增强对音高、语速、情绪(如沮丧、困惑)等声学细节的识别,能动态调整回复风格
- 长对话保持:在多轮会话中能跟踪更长的上下文,保持思路连续
- 噪声与复杂任务:在有中断、犹豫和噪声的真实音频中表现更稳健,适合复杂任务执行与多步函数调用
基准与验证
- ComplexFuncBench Audio:以 90.8% 领先此前版本(涉及多步函数调用与约束)
- Scale AI Audio MultiChallenge:在开启“思考”模式下以 36.1% 表现领先(评测复杂指令跟随与长程推理能力)
部署与生态反馈
- 已在 Gemini Live、Search Live 中替换为后端模型,带来更快、更自然的响应体验
- 支持超过 200 个国家/地区的实时多语言对话
- 企业整合示例:Verizon、LiveKit、The Home Depot 等给出正面反馈,称提升了自然对话质量与客户体验
安全与治理
- 所有由 3.1 Flash Live 生成的音频包含水印,用于帮助识别和减少错误信息传播
- Google 提醒生成式 AI 仍属实验性质,并在产品页面声明相关限制
适用场景(示例)
- 语音客服与 CX 自动化:理解情绪并动态调整应答策略
- 实时语音助手与搜索:更自然的多轮问答和复杂任务跟踪
- 噪声环境下的语音交互:提高鲁棒性以完成多步骤操作
如何接入
- 开发者:通过 Google AI Studio 中的 Gemini Live API 预览接入
- 企业:通过 Gemini Enterprise for Customer Experience 集成
- 终端用户:在支持地区通过 Search Live 与 Gemini Live 体验
这版着重提升实时性与情感感知,有助于把语音智能从查询助手推向更复杂的对话代理。