【GOOGLE】Gemini 3.1 Flash Live 推出

Google 推出 Gemini 3.1 Flash Live 音频模型,主打更低延迟、更高自然度和更稳健的多轮对话理解,适用于开发者、企业和大众场景;模型在多项音频基准上领先并支持实时多语言交互,输出音频含可识别水印以减少误导。该模型已通过 Gemini Live API、企業客戶方案及 Search Live 等渠道上线并扩展到 200 多个国家与地区。

概览

  • 名称:Gemini 3.1 Flash Live
  • 定位:Google 当前最高质量的实时语音/音频模型,面向语音优先交互场景
  • 可用性:开发者通过 Gemini Live API 预览,企業可在 Gemini Enterprise for Customer Experience 使用,普通用户通过 Search Live 与 Gemini Live 体验

主要改进点

  • 速度与延迟:响应更快,提升实时对话流畅性
  • 语调理解:增强对音高、语速、情绪(如沮丧、困惑)等声学细节的识别,能动态调整回复风格
  • 长对话保持:在多轮会话中能跟踪更长的上下文,保持思路连续
  • 噪声与复杂任务:在有中断、犹豫和噪声的真实音频中表现更稳健,适合复杂任务执行与多步函数调用

基准与验证

  • ComplexFuncBench Audio:以 90.8% 领先此前版本(涉及多步函数调用与约束)
  • Scale AI Audio MultiChallenge:在开启“思考”模式下以 36.1% 表现领先(评测复杂指令跟随与长程推理能力)

部署与生态反馈

  • 已在 Gemini Live、Search Live 中替换为后端模型,带来更快、更自然的响应体验
  • 支持超过 200 个国家/地区的实时多语言对话
  • 企业整合示例:Verizon、LiveKit、The Home Depot 等给出正面反馈,称提升了自然对话质量与客户体验

安全与治理

  • 所有由 3.1 Flash Live 生成的音频包含水印,用于帮助识别和减少错误信息传播
  • Google 提醒生成式 AI 仍属实验性质,并在产品页面声明相关限制

适用场景(示例)

  • 语音客服与 CX 自动化:理解情绪并动态调整应答策略
  • 实时语音助手与搜索:更自然的多轮问答和复杂任务跟踪
  • 噪声环境下的语音交互:提高鲁棒性以完成多步骤操作

如何接入

  • 开发者:通过 Google AI Studio 中的 Gemini Live API 预览接入
  • 企业:通过 Gemini Enterprise for Customer Experience 集成
  • 终端用户:在支持地区通过 Search Live 与 Gemini Live 体验

这版着重提升实时性与情感感知,有助于把语音智能从查询助手推向更复杂的对话代理。

原文链接

Leave a Comment