Gemini 3.5 Live Translate

Gemini 3.5 Live Translate

Gemini 3.5 Live Translate 是 Google 的低延迟、流式语音到语音翻译音频模型,可自动检测 70 多种语言,并生成流畅、自然的翻译语音,同时保留说话者的语调、语速和音高。
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-live-3-5-translate?ref=producthunt&utm_source=aipure
Gemini 3.5 Live Translate

产品信息

更新于:2026年06月12日

Gemini 3.5 Live Translate 月度流量趋势

Gemini 3.5 Live Translate 上个月收到了 8.5m 次访问,显示出 -12.1% 的轻微下降。根据我们的分析,这一趋势与人工智能工具领域的典型市场动态相符。
查看历史流量

什么是 Gemini 3.5 Live Translate

Gemini 3.5 Live Translate 是一个专门的 Gemini 3.5 系列音频模型,专为在实时对话中进行流畅、近乎实时的语音翻译而构建。它不是一个典型的“说话、等待、然后翻译”工具,而是旨在跟上自然对话的节奏,并以逼真的翻译音频支持 70 多种语言。Google 正在多个平台推出它:通过 Gemini Live API 和 Google AI Studio 面向开发者提供公开预览版,通过 Google Meet 面向部分企业客户提供私人预览版,以及通过 Android 和 iOS 上的 Google 翻译应用面向最终用户提供全球可用性。

Gemini 3.5 Live Translate 的主要功能

Gemini 3.5 Live Translate 是 Google 的低延迟、语音到语音翻译音频模型,可提供 70 多种语言的近实时翻译。它持续翻译流式音频(而非轮流翻译),自动检测和切换语言,无需手动配置,旨在保留说话者的语调、语速和音高,同时仅滞后几秒钟。它旨在在嘈杂的现实环境中工作,并将在 Gemini Live API/Google AI Studio 面向开发者、Google Meet(企业私有预览版)以及 Android 和 iOS 上的 Google 翻译应用中推出,生成的音频将应用 SynthID 水印以实现可检测性。
近实时语音到语音翻译: 将口语直接翻译成口语输出,延迟低,翻译仅比说话者滞后几秒钟。
连续流式传输(非轮流): 在说话者说话时连续生成翻译语音,减少尴尬的停顿,使对话感觉更自然。
自动检测 70 多种语言: 自动识别和切换 70 多种语言,避免在多语言对话中手动配置输入语言。
保留表达方式和表现力: 旨在保留说话者表达方式的各个方面——语调、语速和音高——因此翻译听起来更逼真,并与原始语气保持一致。
针对现实环境的抗噪能力: 旨在在嘈杂和不可预测的环境中(例如,移动中的对话、活动、繁忙的街道)而非仅在安静的房间中表现良好。
SynthID 水印音频输出: 所有生成的音频都包含嵌入在波形中的不可察觉的 SynthID 水印,以帮助检测 AI 生成的语音并减少滥用。

Gemini 3.5 Live Translate 的使用场景

多语言视频会议(企业): 在 Google Meet 中,支持 70 多种语言和 2000 多种语言组合的实时语音翻译,支持更具包容性的全球协作。
旅行和面对面交流: 在 Google 翻译应用中,通过耳机(以及通过听筒的 Android “监听模式”)支持实时翻译,实现更无缝的现实世界交流。
客户支持和联络中心: 允许代理和客户使用不同的语言自然交流,同时接收连续的翻译音频,提高速度并减少误解。
网约车和出行协调: 在接送和行程中实现近实时的司机-乘客交流(例如,Grab 等合作伙伴正在测试多语言通话)。
教育和培训: 支持课程、辅导和研讨会的实时口译,帮助教师在不暂停进行轮流翻译的情况下教授多语言受众。
广播、活动和实时口译应用: 通过 Gemini Live API 和合作伙伴流媒体平台(例如 LiveKit/Agora),开发者可以构建实时配音和多语言翻译体验。

优点

由于连续流式翻译,停顿更少,对话更自然
广泛覆盖,自动检测 70 多种语言并处理多语言输入
专为嘈杂的实用环境而设计
SynthID 水印提高了透明度,有助于阻止滥用生成的音频

缺点

由于质量与同步的权衡,翻译仍可能比说话者滞后几秒钟
Google Meet 中的企业可用性最初受限(广泛推出前的私有预览版)
发布时提供的来源中未明确披露定价/额外费用

如何使用 Gemini 3.5 Live Translate

1) 选择您想使用 Gemini 3.5 Live Translate 的地方: 选择适合您需求的平台:(a) 适用于个人使用的 Google 翻译应用(Android/iOS),(b) 适用于会议的 Google Meet(企业/私人预览版),或 (c) 适用于将实时翻译构建到您自己的应用中的 Gemini Live API / Google AI Studio(开发者/公开预览版)。
2) 在 Google 翻译应用(Android/iOS)中使用它: 在 Android 或 iOS 上安装/更新 Google 翻译。打开应用并选择实时翻译/对话式实时翻译体验。连接耳机以获得最无缝的体验;该模型以近乎实时的方式流式传输 70 多种语言的翻译语音,并旨在保留音调、语速和音高。
3) (Android) 尝试用于私人播放的新聆听模式: 在支持的 Android 版本上,启用带有 3.5 Live Translate 的新聆听模式。像正常通话一样将手机贴在耳朵上,通过听筒听到翻译的音频——当您没有耳机并且不希望其他人听到翻译时很有用。
4) 在 Google Meet(企业/私人预览版)中使用它: 如果您是私人预览版中选定的 Google Workspace 商业客户,请打开 Google Meet 并开始/加入会议。使用更新后的 Meet 界面访问语音翻译。Meet 将在一次会议中支持 70 多种语言和 2000 多种语言组合(不限于英语作为中介语言)。
5) 在 Google AI Studio 中无需编码即可试用(开发者/公开预览版): 转到 Google AI Studio 的 Live 体验并选择模型 "gemini-3.5-live-translate-preview"。配置会话以进行 AUDIO 输出,并通过设置目标语言代码启用翻译。开始流式传输麦克风音频;您应该会收到连续的翻译音频和(可选)输入/输出转录。
6) 使用 Gemini Live API(开发者/公开预览版)进行构建 — 设置先决条件: 获取 Gemini Live API 的访问权限和 API 密钥。决定您的流媒体堆栈(WebSocket 或 SDK)。如果您不想自己构建实时媒体管道,请考虑来源中提到的合作伙伴平台(Agora、Fishjam、LiveKit、Pipecat、Vision Agents),它们处理实时流媒体基础设施。
7) 创建 Live 会话并在配置中启用翻译: 使用模型 "gemini-3.5-live-translate-preview" 连接到 Live API,并使用以下内容设置 LiveConnectConfig / generationConfig:responseModalities=["AUDIO"],inputAudioTranscription 启用(可选),outputAudioTranscription 启用(可选),以及带有 targetLanguageCode(例如,“pl”)和 echoTargetLanguage(可选)的 translationConfig。
8) 流式传输音频并播放翻译音频(连续翻译): 发送捕获到的麦克风音频帧/块。模型在流式传输时处理语音,并连续返回翻译的音频(比说话者滞后几秒钟)。实时向听众播放返回的音频流;如果启用,可选地显示输入/输出转录。
9) 处理多语言和嘈杂的真实世界输入: 依靠模型的自动语言检测来处理多语言输入(无需手动语言切换)。为真实环境设计您的用户体验:可能会出现背景噪音、中断和重叠语音;保持音频捕获稳定,并提供清晰的指示,说明谁在说话以及输出的是哪种语言。
10) 验证输出并传达水印信息: 请注意,Gemini 3.5 Live Translate 生成的所有音频都带有 SynthID 水印(嵌入在音频中的不可察觉的水印)。如果您正在构建产品,请说明翻译的音频是 AI 生成的,并包含水印以供检测。
11) 使用官方演示和示例代码加速开发: 查阅 Google 的 Gemini Live API 演示和示例存储库(例如,基于 LiveKit 的实时翻译演示和其他 Gemini Live API 示例),复制一个可用的流媒体管道,然后将其调整到您的应用程序的用户界面和部署环境。

Gemini 3.5 Live Translate 常见问题

Gemini 3.5 Live Translate 是 Google 最新的音频模型,用于近乎实时的语音到语音翻译。

Gemini 3.5 Live Translate 网站分析

Gemini 3.5 Live Translate 流量和排名
8.5M
每月访问量
#8357
全球排名
#353
类别排名
流量趋势:Nov 2024-Jun 2025
Gemini 3.5 Live Translate 用户洞察
00:00:53
平均访问时长
1.93
每次访问页数
55.03%
用户跳出率
Gemini 3.5 Live Translate 的热门地区
  1. US: 26.94%

  2. IN: 8.76%

  3. GB: 5.14%

  4. JP: 4.24%

  5. DE: 3.01%

  6. Others: 51.91%

与 Gemini 3.5 Live Translate 类似的最新 AI 工具

InDesign Translator
InDesign Translator
InDesign Translator 是一项在线翻译服务,使用户能够在保留格式和样式的前提下翻译 InDesign 文件,提供 AI 辅助翻译和易于协作的功能,无需翻译人员安装 InDesign。
Blanc AI
Blanc AI
Contact for PricingTranslateAI Video Editing
Blanc AI是一种革命性的AI解决方案,能够在保留原始声音、情感和口型同步的同时,将视频内容翻译和配音成47+种语言。
MenuGuide
MenuGuide
MenuGuide是一款前沿的AI驱动应用,可以即时将餐厅菜单从任何语言翻译成您偏好的语言,提供菜品详情、过敏原信息和营养成分,为无缝的全球用餐体验提供支持。
Vocabulary AI
Vocabulary AI
Vocabulary AI 是一个先进的 AI 驱动的语言学习平台,通过网站、移动应用和浏览器扩展结合翻译、词汇构建和个性化练习,帮助用户有效学习和保留新单词。