【GOOGLE】Gemini 3.1 Flash TTS 发布

Google 发布了 Gemini 3.1 Flash TTS,一款更自然且可控性更强的文本转语音模型,支持 70+ 语言并在生成音频中嵌入 SynthID 水印以防止误用。开发者可通过 Gemini API、Google AI Studio 与 Vertex AI 预览使用,并通过音频标签精细控制语速、语气与表现。

概览

  • 模型:Gemini 3.1 Flash TTS
  • 目标用户:开发者、企业与常规用户(预览期通过 Gemini API、Google AI Studio、Vertex AI、Google Vids 提供)
  • 亮点:更高语音质量、细粒度可控性、支持多角色对话、70+ 语言、合成音频水印(SynthID)

技术与体验要点

  • 语音质量:在人工偏好基准(Artificial Analysis TTS leaderboard)上得到高分,谷歌称为迄今最自然、最具表现力的版本。模型在“高质量/低成本”组合中表现优异。
  • 多说话者对话:原生支持多角色对话,便于构建交互式或剧情化场景。
  • 音频标签(Audio tags):在输入文本中嵌入自然语言命令以控制声线、节奏与表达,支持:
  • 场景指引(Scene direction):设定环境与对话背景,帮助角色保持角色设定并自然互动。
  • 说话人级配置(Audio Profiles 与 Director’s Notes):为角色分配音色、语速、语调与口音,并可在句中通过内联标签即时切换表达。
  • 无缝导出:在 Google AI Studio 中调优后可导出为 Gemini API 代码,保证跨项目的一致性。

部署与安全

  • 访问:开发者预览通过 Gemini API 与 Google AI Studio,企业可通过 Vertex AI 预览,Workspace 用户可在 Google Vids 使用。
  • 水印:生成音频带有 SynthID 水印,用于标识 AI 生成内容,旨在降低误用与虚假信息风险。

适用场景

  • 角色化叙事、游戏与虚拟主播
  • 语音助手与企业客服的高保真语音输出
  • 多语言内容制作与本地化

限制与说明

  • 当前为预览发布,文中声明生成的内容与总结由 Google AI 生成,技术仍属实验性。

这版本在可控性和多角色表现上进步明显,但需关注水印可靠性与真实世界误用防护效果。

原文链接

Leave a Comment