Google 发布了 Gemini 3.1 Flash TTS,一款更自然且可控性更强的文本转语音模型,支持 70+ 语言并在生成音频中嵌入 SynthID 水印以防止误用。开发者可通过 Gemini API、Google AI Studio 与 Vertex AI 预览使用,并通过音频标签精细控制语速、语气与表现。
概览
- 模型:Gemini 3.1 Flash TTS
- 目标用户:开发者、企业与常规用户(预览期通过 Gemini API、Google AI Studio、Vertex AI、Google Vids 提供)
- 亮点:更高语音质量、细粒度可控性、支持多角色对话、70+ 语言、合成音频水印(SynthID)
技术与体验要点
- 语音质量:在人工偏好基准(Artificial Analysis TTS leaderboard)上得到高分,谷歌称为迄今最自然、最具表现力的版本。模型在“高质量/低成本”组合中表现优异。
- 多说话者对话:原生支持多角色对话,便于构建交互式或剧情化场景。
- 音频标签(Audio tags):在输入文本中嵌入自然语言命令以控制声线、节奏与表达,支持:
- 场景指引(Scene direction):设定环境与对话背景,帮助角色保持角色设定并自然互动。
- 说话人级配置(Audio Profiles 与 Director’s Notes):为角色分配音色、语速、语调与口音,并可在句中通过内联标签即时切换表达。
- 无缝导出:在 Google AI Studio 中调优后可导出为 Gemini API 代码,保证跨项目的一致性。
部署与安全
- 访问:开发者预览通过 Gemini API 与 Google AI Studio,企业可通过 Vertex AI 预览,Workspace 用户可在 Google Vids 使用。
- 水印:生成音频带有 SynthID 水印,用于标识 AI 生成内容,旨在降低误用与虚假信息风险。
适用场景
- 角色化叙事、游戏与虚拟主播
- 语音助手与企业客服的高保真语音输出
- 多语言内容制作与本地化
限制与说明
- 当前为预览发布,文中声明生成的内容与总结由 Google AI 生成,技术仍属实验性。
这版本在可控性和多角色表现上进步明显,但需关注水印可靠性与真实世界误用防护效果。