【GOOGLE】Gemini 3.1 Flash Live 实时语音代理

Google 推出 Gemini 3.1 Flash Live,通过 Gemini Live API 在 Google AI Studio 预览,可构建低延迟、多模态的实时语音与视觉代理,提升噪声环境下的任务完成率、指令遵从与对话自然度,并支持 90 多种语言。该服务面向生产环境并提供合作伙伴集成与开发者文档以便扩展到 WebRTC、边缘路由与长会话管理等场景。

概述
– 产品:Gemini 3.1 Flash Live(通过 Gemini Live API 在 Google AI Studio 可用,处于预览)
– 目标:构建实时、低延迟且更自然的语音/视觉对话代理,适合语音优先的交互场景

主要改进点
– 更低延迟与更自然的对话:比先前版本(如 2.5 Flash Native Audio)在识别音调、语速等声学细节上更强,使实时对话更流畅。
– 噪声环境下的鲁棒性:能更准确区分有用语音与环境声音(交通、电视等),提升触发外部工具和返回信息的可靠性。
– 提高指令遵从:对复杂系统指令的遵守显著增强,能在意外对话走向下仍保持操作边界。
– 多语言支持:可在实时多模态对话中支持 90+ 种语言。

示例应用场景
– 设计工具(Stitch):通过语音对画布和屏幕元素进行评审、生成变体。
– 老年人 AI 伴侣(Ato):利用多语言能力将日常对话转为更真实的交流体验。
– 游戏叙事(Weekend 的 Wit’s end):借助强角色化与人性化的语音表现为游戏主持人加入戏剧化表现。

集成与生产准备
– 面向生产的 Live API:支持实时视频流、按需电话等多样输入。
– 推荐集成:对于需要 WebRTC 横向扩展或全球边缘路由的系统,建议使用 Google 的合作伙伴集成以简化开发与部署。

如何开始
– 可用性:Gemini 3.1 Flash Live 自发布日起可通过 Gemini API 与 Google AI Studio 访问(预览)。
– 开发资源:提供 Gemini Live API 文档、示例、Skill 教程与 Google GenAI SDK,涵盖多语言、工具调用、会话管理与短期凭证等功能。

注意事项
– 当前为预览发行,生产部署应评估稳定性、成本与隐私合规。

这次升级强调低延迟与噪声鲁棒性,能加速语音优先应用落地,但仍需关注预览阶段的稳定性与合规性。

原文链接

Leave a Comment