【GOOGLE】Gemini 3.1 Flash Live 实时语音代理

Google 推出 Gemini 3.1 Flash Live，通过 Gemini Live API 在 Google AI Studio 预览，可构建低延迟、多模态的实时语音与视觉代理，提升噪声环境下的任务完成率、指令遵从与对话自然度，并支持 90 多种语言。该服务面向生产环境并提供合作伙伴集成与开发者文档以便扩展到 WebRTC、边缘路由与长会话管理等场景。

概述
– 产品：Gemini 3.1 Flash Live（通过 Gemini Live API 在 Google AI Studio 可用，处于预览）
– 目标：构建实时、低延迟且更自然的语音/视觉对话代理，适合语音优先的交互场景

主要改进点
– 更低延迟与更自然的对话：比先前版本（如 2.5 Flash Native Audio）在识别音调、语速等声学细节上更强，使实时对话更流畅。
– 噪声环境下的鲁棒性：能更准确区分有用语音与环境声音（交通、电视等），提升触发外部工具和返回信息的可靠性。
– 提高指令遵从：对复杂系统指令的遵守显著增强，能在意外对话走向下仍保持操作边界。
– 多语言支持：可在实时多模态对话中支持 90+ 种语言。

示例应用场景
– 设计工具（Stitch）：通过语音对画布和屏幕元素进行评审、生成变体。
– 老年人 AI 伴侣（Ato）：利用多语言能力将日常对话转为更真实的交流体验。
– 游戏叙事（Weekend 的 Wit’s end）：借助强角色化与人性化的语音表现为游戏主持人加入戏剧化表现。

集成与生产准备
– 面向生产的 Live API：支持实时视频流、按需电话等多样输入。
– 推荐集成：对于需要 WebRTC 横向扩展或全球边缘路由的系统，建议使用 Google 的合作伙伴集成以简化开发与部署。

如何开始
– 可用性：Gemini 3.1 Flash Live 自发布日起可通过 Gemini API 与 Google AI Studio 访问（预览）。
– 开发资源：提供 Gemini Live API 文档、示例、Skill 教程与 Google GenAI SDK，涵盖多语言、工具调用、会话管理与短期凭证等功能。

注意事项
– 当前为预览发行，生产部署应评估稳定性、成本与隐私合规。

这次升级强调低延迟与噪声鲁棒性，能加速语音优先应用落地，但仍需关注预览阶段的稳定性与合规性。

原文链接

Leave a Comment Cancel reply