【GOOGLE】Gemini 3.1 Flash TTS 发布

April 15, 2026 by ydgwgc@gmail.com

Google 发布了 Gemini 3.1 Flash TTS，一款更自然且可控性更强的文本转语音模型，支持 70+ 语言并在生成音频中嵌入 SynthID 水印以防止误用。开发者可通过 Gemini API、Google AI Studio 与 Vertex AI 预览使用，并通过音频标签精细控制语速、语气与表现。

概览

模型：Gemini 3.1 Flash TTS
目标用户：开发者、企业与常规用户（预览期通过 Gemini API、Google AI Studio、Vertex AI、Google Vids 提供）
亮点：更高语音质量、细粒度可控性、支持多角色对话、70+ 语言、合成音频水印（SynthID）

技术与体验要点

语音质量：在人工偏好基准（Artificial Analysis TTS leaderboard）上得到高分，谷歌称为迄今最自然、最具表现力的版本。模型在“高质量/低成本”组合中表现优异。
多说话者对话：原生支持多角色对话，便于构建交互式或剧情化场景。
音频标签（Audio tags）：在输入文本中嵌入自然语言命令以控制声线、节奏与表达，支持：
场景指引（Scene direction）：设定环境与对话背景，帮助角色保持角色设定并自然互动。
说话人级配置（Audio Profiles 与 Director’s Notes）：为角色分配音色、语速、语调与口音，并可在句中通过内联标签即时切换表达。
无缝导出：在 Google AI Studio 中调优后可导出为 Gemini API 代码，保证跨项目的一致性。

部署与安全

访问：开发者预览通过 Gemini API 与 Google AI Studio，企业可通过 Vertex AI 预览，Workspace 用户可在 Google Vids 使用。
水印：生成音频带有 SynthID 水印，用于标识 AI 生成内容，旨在降低误用与虚假信息风险。

适用场景

角色化叙事、游戏与虚拟主播
语音助手与企业客服的高保真语音输出
多语言内容制作与本地化

限制与说明

当前为预览发布，文中声明生成的内容与总结由 Google AI 生成，技术仍属实验性。

这版本在可控性和多角色表现上进步明显，但需关注水印可靠性与真实世界误用防护效果。

Leave a Comment Cancel reply