Gemini 3.5 Live Translate 支持多少种语言？

它自动检测并翻译 70 多种语言。

它是否只在有人说完后才进行翻译（轮流翻译）？

不。它在说话者说话时持续生成翻译语音，旨在仅落后几秒钟，同时平衡延迟和翻译质量。

它是否保留了说话者的声音特征？

它生成听起来自然的翻译语音，保留了说话者的语调、语速和音高。

Gemini 3.5 Live Translate 在哪里可用？

它将通过 Gemini Live API 和 Google AI Studio 面向开发者推出（公开预览版），在 Google Meet 中面向企业推出（本月开始私密预览版），并在 Android 和 iOS 上的 Google 翻译应用中面向所有人推出。

开发者可以使用它构建实时翻译应用吗？有哪些工具可用？

是的。开发者可以通过 Gemini Live API 使用它，Google 提供了演示和示例代码（例如，在 gemini-live-api-examples 存储库中，包括一个基于 LiveKit 的实时翻译演示）。

它是否需要手动语言配置？

不。该模型处理多语言输入并自动检测语言，无需手动配置。

Google 如何解决生成音频的安全性和可检测性问题？

模型生成的音频带有 SynthID 水印，这是一种嵌入在音频中不可察觉的水印，有助于检测 AI 生成的内容。

Gemini 3.5 Live Translate

Q: Gemini 3.5 Live Translate 支持多少种语言？

它自动检测并翻译 70 多种语言。

WebsiteAppFree TrialTranslate AI Voice Chat Generator

Gemini 3.5 Live Translate 是 Google 的低延迟、流式语音到语音翻译音频模型，可自动检测 70 多种语言，并生成流畅、自然的翻译语音，同时保留说话者的语调、语速和音高。

访问网站

推广此工具

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-live-3-5-translate?ref=producthunt&utm_source=aipure

概述
分析
视频
替代方案

产品信息

更新于：2026年06月15日

Gemini 3.5 Live Translate 月度流量趋势

Gemini 3.5 Live Translate 上个月收到了 8.5m 次访问，显示出 -12.1% 的轻微下降。根据我们的分析，这一趋势与人工智能工具领域的典型市场动态相符。

查看历史流量

什么是 Gemini 3.5 Live Translate

Gemini 3.5 Live Translate 是一个专门的 Gemini 3.5 系列音频模型，专为在实时对话中进行流畅、近乎实时的语音翻译而构建。它不是一个典型的“说话、等待、然后翻译”工具，而是旨在跟上自然对话的节奏，并以逼真的翻译音频支持 70 多种语言。Google 正在多个平台推出它：通过 Gemini Live API 和 Google AI Studio 面向开发者提供公开预览版，通过 Google Meet 面向部分企业客户提供私人预览版，以及通过 Android 和 iOS 上的 Google 翻译应用面向最终用户提供全球可用性。

Gemini 3.5 Live Translate 的主要功能

Gemini 3.5 Live Translate 是 Google 的低延迟、语音到语音翻译音频模型，可提供 70 多种语言的近实时翻译。它持续翻译流式音频（而非轮流翻译），自动检测和切换语言，无需手动配置，旨在保留说话者的语调、语速和音高，同时仅滞后几秒钟。它旨在在嘈杂的现实环境中工作，并将在 Gemini Live API/Google AI Studio 面向开发者、Google Meet（企业私有预览版）以及 Android 和 iOS 上的 Google 翻译应用中推出，生成的音频将应用 SynthID 水印以实现可检测性。

近实时语音到语音翻译: 将口语直接翻译成口语输出，延迟低，翻译仅比说话者滞后几秒钟。

连续流式传输（非轮流）: 在说话者说话时连续生成翻译语音，减少尴尬的停顿，使对话感觉更自然。

自动检测 70 多种语言: 自动识别和切换 70 多种语言，避免在多语言对话中手动配置输入语言。

保留表达方式和表现力: 旨在保留说话者表达方式的各个方面——语调、语速和音高——因此翻译听起来更逼真，并与原始语气保持一致。

针对现实环境的抗噪能力: 旨在在嘈杂和不可预测的环境中（例如，移动中的对话、活动、繁忙的街道）而非仅在安静的房间中表现良好。

SynthID 水印音频输出: 所有生成的音频都包含嵌入在波形中的不可察觉的 SynthID 水印，以帮助检测 AI 生成的语音并减少滥用。

Gemini 3.5 Live Translate 的使用场景

多语言视频会议（企业）: 在 Google Meet 中，支持 70 多种语言和 2000 多种语言组合的实时语音翻译，支持更具包容性的全球协作。

旅行和面对面交流: 在 Google 翻译应用中，通过耳机（以及通过听筒的 Android “监听模式”）支持实时翻译，实现更无缝的现实世界交流。

客户支持和联络中心: 允许代理和客户使用不同的语言自然交流，同时接收连续的翻译音频，提高速度并减少误解。

网约车和出行协调: 在接送和行程中实现近实时的司机-乘客交流（例如，Grab 等合作伙伴正在测试多语言通话）。

教育和培训: 支持课程、辅导和研讨会的实时口译，帮助教师在不暂停进行轮流翻译的情况下教授多语言受众。

广播、活动和实时口译应用: 通过 Gemini Live API 和合作伙伴流媒体平台（例如 LiveKit/Agora），开发者可以构建实时配音和多语言翻译体验。

优点

由于连续流式翻译，停顿更少，对话更自然

广泛覆盖，自动检测 70 多种语言并处理多语言输入

专为嘈杂的实用环境而设计

SynthID 水印提高了透明度，有助于阻止滥用生成的音频

缺点

由于质量与同步的权衡，翻译仍可能比说话者滞后几秒钟

Google Meet 中的企业可用性最初受限（广泛推出前的私有预览版）

发布时提供的来源中未明确披露定价/额外费用

如何使用 Gemini 3.5 Live Translate

1) 选择您想使用 Gemini 3.5 Live Translate 的地方: 选择适合您需求的平台：(a) 适用于个人使用的 Google 翻译应用（Android/iOS），(b) 适用于会议的 Google Meet（企业/私人预览版），或 (c) 适用于将实时翻译构建到您自己的应用中的 Gemini Live API / Google AI Studio（开发者/公开预览版）。

2) 在 Google 翻译应用（Android/iOS）中使用它: 在 Android 或 iOS 上安装/更新 Google 翻译。打开应用并选择实时翻译/对话式实时翻译体验。连接耳机以获得最无缝的体验；该模型以近乎实时的方式流式传输 70 多种语言的翻译语音，并旨在保留音调、语速和音高。

3) (Android) 尝试用于私人播放的新聆听模式: 在支持的 Android 版本上，启用带有 3.5 Live Translate 的新聆听模式。像正常通话一样将手机贴在耳朵上，通过听筒听到翻译的音频——当您没有耳机并且不希望其他人听到翻译时很有用。

4) 在 Google Meet（企业/私人预览版）中使用它: 如果您是私人预览版中选定的 Google Workspace 商业客户，请打开 Google Meet 并开始/加入会议。使用更新后的 Meet 界面访问语音翻译。Meet 将在一次会议中支持 70 多种语言和 2000 多种语言组合（不限于英语作为中介语言）。

5) 在 Google AI Studio 中无需编码即可试用（开发者/公开预览版）: 转到 Google AI Studio 的 Live 体验并选择模型 "gemini-3.5-live-translate-preview"。配置会话以进行 AUDIO 输出，并通过设置目标语言代码启用翻译。开始流式传输麦克风音频；您应该会收到连续的翻译音频和（可选）输入/输出转录。

6) 使用 Gemini Live API（开发者/公开预览版）进行构建 — 设置先决条件: 获取 Gemini Live API 的访问权限和 API 密钥。决定您的流媒体堆栈（WebSocket 或 SDK）。如果您不想自己构建实时媒体管道，请考虑来源中提到的合作伙伴平台（Agora、Fishjam、LiveKit、Pipecat、Vision Agents），它们处理实时流媒体基础设施。

7) 创建 Live 会话并在配置中启用翻译: 使用模型 "gemini-3.5-live-translate-preview" 连接到 Live API，并使用以下内容设置 LiveConnectConfig / generationConfig：responseModalities=["AUDIO"]，inputAudioTranscription 启用（可选），outputAudioTranscription 启用（可选），以及带有 targetLanguageCode（例如，“pl”）和 echoTargetLanguage（可选）的 translationConfig。

8) 流式传输音频并播放翻译音频（连续翻译）: 发送捕获到的麦克风音频帧/块。模型在流式传输时处理语音，并连续返回翻译的音频（比说话者滞后几秒钟）。实时向听众播放返回的音频流；如果启用，可选地显示输入/输出转录。

9) 处理多语言和嘈杂的真实世界输入: 依靠模型的自动语言检测来处理多语言输入（无需手动语言切换）。为真实环境设计您的用户体验：可能会出现背景噪音、中断和重叠语音；保持音频捕获稳定，并提供清晰的指示，说明谁在说话以及输出的是哪种语言。

10) 验证输出并传达水印信息: 请注意，Gemini 3.5 Live Translate 生成的所有音频都带有 SynthID 水印（嵌入在音频中的不可察觉的水印）。如果您正在构建产品，请说明翻译的音频是 AI 生成的，并包含水印以供检测。

11) 使用官方演示和示例代码加速开发: 查阅 Google 的 Gemini Live API 演示和示例存储库（例如，基于 LiveKit 的实时翻译演示和其他 Gemini Live API 示例），复制一个可用的流媒体管道，然后将其调整到您的应用程序的用户界面和部署环境。