【GOOGLE】Gemini 3.5 实时语音翻译发布

Google 推出 Gemini 3.5 Live Translate，作为新一代音频模型实现超过 70 种语言的近实时语音到语音翻译，生成保留说话人语调、节奏和音高的自然语音并尽量减少停顿。该功能已通过 Gemini Live API 与 Google AI Studio 开放开发者公测，Google Meet 企业私测以及 Android/iOS 的 Google Translate 推出。

概述
– Gemini 3.5 Live Translate 是 Google 的最新实时音频模型，支持自动检测并翻译 70+ 语言。
– 设计目标是生成流畅、自然的目标语言语音，保留原讲话的语调、节奏与音高。

关键技术与体验改进
– 连续生成：不同于等待说完再翻译的逐句系统，3.5 在几秒延迟内连续生成语音，平衡上下文质量与同步性，减少尴尬停顿。
– 多语言与噪声鲁棒性：可处理多语言混合输入，无需手动配置，适应嘈杂或不可预测的场景。

产品与接入途径
– 开发者：通过 Gemini Live API 与 Google AI Studio 公测，提供流式处理能力与示例代码（Gemini Cookbook）。
– 企业：将于本月在 Google Meet 开始企业私测，后续面向更广泛用户推广。
– 消费端：已在 Android 与 iOS 的 Google Translate 应用中上线，使用 Live translate 并连接耳机即可体验。

生态与合作
– 开发平台合作：Agora、Fishjam、LiveKit、Pipecat、Vision Agents 等已整合，简化实时媒体流处理，帮助开发者专注体验开发。
– 早期用户：Grab、CJ ENM、LiveKit 等反馈翻译质量高、准确且延迟低；Grab 用例覆盖司机与旅客的近实时语音沟通（每月超 1000 万通话）。

Meet 中的增强
– 语言覆盖扩展：由此前仅支持 5 种语言扩展到 70+，会议中支持 2000+ 语言组合（不再局限于以英语为中心）。
– 界面更新：为企业用户提供更便捷的即时语音翻译入口，私测先行，后续全面推广。

适用场景
– 多语言会议与实时口译、课堂或培训中的即时翻译、直播或广播的同声传译、跨国客服与接单场景的语言桥接等。

这项持续流式翻译在多语境下的低延迟与保留语调能力，对实时跨语言交互是实际可用的一步，但部署时仍需评估隐私与噪声极端情况的表现。

原文链接

Leave a Comment Cancel reply