【GOOGLE】Gemini 3.5 实时语音翻译发布

Google 推出 Gemini 3.5 Live Translate,作为新一代音频模型实现超过 70 种语言的近实时语音到语音翻译,生成保留说话人语调、节奏和音高的自然语音并尽量减少停顿。该功能已通过 Gemini Live API 与 Google AI Studio 开放开发者公测,Google Meet 企业私测以及 Android/iOS 的 Google Translate 推出。

概述
– Gemini 3.5 Live Translate 是 Google 的最新实时音频模型,支持自动检测并翻译 70+ 语言。
– 设计目标是生成流畅、自然的目标语言语音,保留原讲话的语调、节奏与音高。

关键技术与体验改进
– 连续生成:不同于等待说完再翻译的逐句系统,3.5 在几秒延迟内连续生成语音,平衡上下文质量与同步性,减少尴尬停顿。
– 多语言与噪声鲁棒性:可处理多语言混合输入,无需手动配置,适应嘈杂或不可预测的场景。

产品与接入途径
– 开发者:通过 Gemini Live API 与 Google AI Studio 公测,提供流式处理能力与示例代码(Gemini Cookbook)。
– 企业:将于本月在 Google Meet 开始企业私测,后续面向更广泛用户推广。
– 消费端:已在 Android 与 iOS 的 Google Translate 应用中上线,使用 Live translate 并连接耳机即可体验。

生态与合作
– 开发平台合作:Agora、Fishjam、LiveKit、Pipecat、Vision Agents 等已整合,简化实时媒体流处理,帮助开发者专注体验开发。
– 早期用户:Grab、CJ ENM、LiveKit 等反馈翻译质量高、准确且延迟低;Grab 用例覆盖司机与旅客的近实时语音沟通(每月超 1000 万通话)。

Meet 中的增强
– 语言覆盖扩展:由此前仅支持 5 种语言扩展到 70+,会议中支持 2000+ 语言组合(不再局限于以英语为中心)。
– 界面更新:为企业用户提供更便捷的即时语音翻译入口,私测先行,后续全面推广。

适用场景
– 多语言会议与实时口译、课堂或培训中的即时翻译、直播或广播的同声传译、跨国客服与接单场景的语言桥接等。

这项持续流式翻译在多语境下的低延迟与保留语调能力,对实时跨语言交互是实际可用的一步,但部署时仍需评估隐私与噪声极端情况的表现。

原文链接

Leave a Comment