Google Gemini 3.1 Flash TTS 常见问题

Question 1

什么是 Gemini 3.1 Flash TTS？

Accepted Answer

Gemini 3.1 Flash TTS 是 Google 于 2026 年 4 月 15 日发布的最新文本转语音 AI 模型。它将文本转换为自然、富有表现力的语音，并具有改进的可控性和质量。该模型支持 70 多种语言，具有原生多说话人对话功能，并允许通过嵌入在文本中的音频标签精确控制声音风格、节奏和表达方式。

Question 2

音频标签在 Gemini 3.1 Flash TTS 中如何工作？

Accepted Answer

音频标签是使用方括号直接嵌入到文本输入中的自然语言命令，用于控制语音特征。例如，您可以使用标签来调整情绪、节奏、口音和表达风格。该模型支持 200 多个音频标签，使开发人员能够以精细的精度微调声音表现，从而创造富有表现力和引人入胜的音频体验。

Question 3

我在哪里可以访问 Gemini 3.1 Flash TTS？

Accepted Answer

Gemini 3.1 Flash TTS 通过三个主要平台提供公开预览：面向开发人员的 Google AI Studio（用于快速原型设计和实验）、面向企业的 Vertex AI（具有规模、安全性和企业就绪性）以及面向 Workspace 用户的 Google Vids。通过 API 访问时，模型 ID 为 'gemini-3.1-flash-tts-preview'。

Question 4

什么是 SynthID 水印？

Accepted Answer

SynthID 是一种难以察觉的水印，Google 将其直接嵌入到 Gemini 3.1 Flash TTS 生成的所有音频中。听众无法听到此水印，但可以可靠地检测 AI 生成的内容，从而帮助防止虚假信息，并通过识别音频何时由 AI 创建来支持负责任的 AI 透明度。

Question 5

Gemini 3.1 Flash TTS 是否支持多个说话人？

Accepted Answer

是的，Gemini 3.1 Flash TTS 在单个 API 调用中支持原生多说话人对话。开发人员可以为每个角色定义唯一的音频配置文件，并使用导演笔记来指定节奏、语调和口音。该模型在多个回合中保持角色一致性，从而在不同说话人之间创建自然的对话流程。

Question 6

Gemini 3.1 Flash TTS 的质量与其他模型相比如何？

Accepted Answer

在捕获数千个盲人人偏好的 Artificial Analysis TTS 排行榜上，Gemini 3.1 Flash TTS 的 Elo 得分为 1,211。它以其高质量的语音生成和低成本的理想结合而被定位在'最具吸引力的象限'中，并以原生多说话人对话、对 70 多种语言的支持以及精细的创意控制而脱颖而出。

Question 7

Google AI Studio 中有哪些开发人员工具可用？

Accepted Answer

Google AI Studio 提供可配置的控件，包括：场景指导（用于设置环境和对话说明）、说话人级别的特异性（用于使用独特的音频配置文件和导演笔记来选择角色）、用于句子中表达变化的内联标签以及无缝导出功能，用于将参数导出为 Gemini API 代码，以便在项目中保持一致的声音。

Question 8

Gemini 3.1 Flash TTS 支持多少种语言？

Accepted Answer

Gemini 3.1 Flash TTS 支持 70 多种语言的高保真语音生成。该模型跨这些语言提供对风格、节奏和口音的高级控制，帮助开发人员为全球主要市场的用户创建本地化的、富有表现力的语音体验。

Google Gemini 3.1 Flash TTS

产品信息

Google Gemini 3.1 Flash TTS 月度流量趋势

什么是 Google Gemini 3.1 Flash TTS

Google Gemini 3.1 Flash TTS 的主要功能

Google Gemini 3.1 Flash TTS 的使用场景

优点

缺点

如何使用 Google Gemini 3.1 Flash TTS