Google Gemini 3.1 Flash TTS 常見問題

Question 1

什麼是 Gemini 3.1 Flash TTS？

Accepted Answer

Gemini 3.1 Flash TTS 是 Google 於 2026 年 4 月 15 日發布的最新文字轉語音 AI 模型。它將文字轉換為自然、富有表現力的語音，並提高了可控性和品質。該模型支援超過 70 種語言，具有原生多說話者對話功能，並允許透過嵌入在文字中的音訊標籤精確控制聲音風格、節奏和傳達方式。

Question 2

音訊標籤在 Gemini 3.1 Flash TTS 中如何運作？

Accepted Answer

音訊標籤是使用方括號直接嵌入到文字輸入中的自然語言命令，用於控制語音特徵。例如，您可以使用標籤來調整情緒、節奏、口音和傳達風格。該模型支援超過 200 個音訊標籤，使開發人員能夠以精細的精確度微調聲音效能，以創造富有表現力和引人入勝的音訊體驗。

Question 3

我在哪裡可以訪問 Gemini 3.1 Flash TTS？

Accepted Answer

Gemini 3.1 Flash TTS 可透過三個主要平台公開預覽：適用於開發人員的 Google AI Studio（用於快速原型設計和實驗）、適用於企業的 Vertex AI（具有規模、安全性和企業就緒性）以及適用於 Workspace 用户的 Google Vids。透過 API 訪問時，模型 ID 為 'gemini-3.1-flash-tts-preview'。

Question 4

什麼是 SynthID 水印？

Accepted Answer

SynthID 是一種難以察覺的水印，Google 將其直接嵌入到 Gemini 3.1 Flash TTS 生成的所有音訊中。聽眾無法聽到此水印，但可以可靠地檢測 AI 生成的內容，從而有助於防止錯誤資訊，並透過識別音訊何時由 AI 創建來支持負責任的 AI 透明度。

Question 5

Gemini 3.1 Flash TTS 是否支援多個說話者？

Accepted Answer

是的，Gemini 3.1 Flash TTS 在單個 API 呼叫中支援原生多說話者對話。開發人員可以為每個角色定義唯一的音訊檔案，並使用導演筆記來指定節奏、語氣和口音。該模型在多個回合中保持角色一致性，從而在不同說話者之間創建自然的對話流程。

Question 6

Gemini 3.1 Flash TTS 的品質與其他模型相比如何？

Accepted Answer

在人工分析 TTS 排行榜上，該排行榜捕捉了成千上萬的盲人人類偏好，Gemini 3.1 Flash TTS 取得了 1,211 的 Elo 分數。它因其高品質語音生成和低成本的理想結合而被定位在「最具吸引力的象限」中，並以原生多說話者對話、支援 70 多種語言和精細的創意控制而脫穎而出。

Question 7

Google AI Studio 中有哪些開發人員工具可用？

Accepted Answer

Google AI Studio 提供可配置的控制，包括：場景方向（用於設定環境和對話說明）、說話者級別的特異性（用於使用獨特的音訊檔案和導演筆記來選角）、用於句子中間表達式變更的內嵌標籤，以及無縫匯出功能，用於將參數匯出為 Gemini API 代碼，以便在專案中保持一致的聲音。

Question 8

Gemini 3.1 Flash TTS 支援多少種語言？

Accepted Answer

Gemini 3.1 Flash TTS 支援 70 多種語言，並具有高保真語音生成功能。該模型跨這些語言提供對風格、節奏和口音的進階控制，幫助開發人員為全球主要市場的用戶創建本地化、富有表現力的語音體驗。

Google Gemini 3.1 Flash TTS

產品資訊

Google Gemini 3.1 Flash TTS 每月流量趨勢

什麼是 Google Gemini 3.1 Flash TTS

Google Gemini 3.1 Flash TTS 的主要功能

Google Gemini 3.1 Flash TTS 的使用案例

優點

缺點

如何使用 Google Gemini 3.1 Flash TTS