
Gemini 3.5 Live Translate
Gemini 3.5 Live Translateは、Googleの低遅延ストリーミング音声間翻訳オーディオモデルで、70以上の言語を自動検出し、話者のイントネーション、ペース、ピッチを維持しながら、滑らかで自然な響きの翻訳音声を生成します。
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-live-3-5-translate?ref=producthunt&utm_source=aipure

製品情報
更新日:2026年06月12日
Gemini 3.5 Live Translate の月間トラフィック傾向
Gemini 3.5 Live Translateは先月8.5mのアクセスを記録し、-12.1%のわずかな減少を示しました。分析によると、このトレンドはAIツール分野の一般的な市場動向と一致しています。
過去のトラフィックを表示Gemini 3.5 Live Translateとは
Gemini 3.5 Live Translateは、ライブ会話中の流暢でほぼリアルタイムの音声翻訳のために構築された、Gemini 3.5ファミリーの特殊なオーディオモデルです。一般的な「話す、待つ、そして翻訳する」ツールとは異なり、自然な対話に追いつき、70以上の言語で本物のような翻訳音声を提供するように設計されています。Googleはこれを複数のサービスで展開しています。開発者向けのGemini Live APIとGoogle AI Studioを通じた公開プレビュー、Google Meetでの一部の企業顧客向けのプライベートプレビュー、そしてAndroidおよびiOSのGoogle翻訳アプリを通じたエンドユーザー向けのグローバル提供です。
Gemini 3.5 Live Translateの主な機能
Gemini 3.5 Live Translateは、Googleの低遅延な音声間翻訳オーディオモデルで、70以上の言語間でほぼリアルタイムの翻訳を提供します。これは、ストリーミングオーディオを(逐次ではなく)継続的に翻訳し、手動設定なしで言語を自動検出および切り替え、話者の抑揚、ペース、ピッチを維持しつつ、わずか数秒の遅延で翻訳することを目指しています。騒がしい現実世界の環境で機能するように設計されており、開発者向けのGemini Live API/Google AI Studio、Google Meet(企業向けプライベートプレビュー)、AndroidおよびiOSのGoogle翻訳アプリに展開され、生成されたオーディオには検出可能性のためにSynthID透かしが適用されます。
ほぼリアルタイムの音声間翻訳: 話された言語を低遅延で直接音声出力に翻訳し、翻訳は話者からわずか数秒遅れるだけです。
連続ストリーミング(逐次ではない): 話者が話している間、翻訳された音声を継続的に生成することで、不自然な一時停止を減らし、会話をより自然に感じさせます。
70以上の言語の自動検出: 70以上の言語を自動的に認識し、切り替えることで、多言語会話における手動の入力言語設定を不要にします。
表現力と話し方を保持: 話者の話し方(抑揚、ペース、ピッチ)の側面を保持するように設計されており、翻訳がより生き生きとして、元のトーンと一致するように聞こえます。
現実世界の環境でのノイズ耐性: 静かな部屋だけでなく、騒がしい予測不可能な環境(例:移動中の会話、イベント、賑やかな通り)でも機能するように構築されています。
SynthID透かし入りオーディオ出力: 生成されたすべてのオーディオには、AI生成された音声を検出して悪用を減らすのに役立つ、波形に埋め込まれた知覚できないSynthID透かしが含まれています。
Gemini 3.5 Live Translateのユースケース
多言語ビデオ会議(企業向け): Google Meetでは、70以上の言語と2000以上の言語の組み合わせでライブ音声翻訳を可能にし、より包括的なグローバルコラボレーションをサポートします。
旅行および対面での会話: Google翻訳アプリでは、ヘッドホン(およびイヤホンを介したAndroidの「リスニングモード」)を介したライブ翻訳をサポートし、よりシームレスな現実世界でのコミュニケーションを実現します。
カスタマーサポートおよびコンタクトセンター: エージェントと顧客が異なる言語で自然に話し、継続的な翻訳オーディオを受け取ることで、速度を向上させ、誤解を減らします。
配車サービスおよびモビリティ調整: ピックアップ時や移動中に、ドライバーと乗客のほぼリアルタイムのコミュニケーションを可能にします(例:Grabのようなパートナーが多言語通話をテスト中)。
教育とトレーニング: レッスン、個別指導、ワークショップのライブ通訳をサポートし、インストラクターが逐次翻訳のために中断することなく、多言語の聴衆に教えるのに役立ちます。
放送、イベント、ライブ通訳アプリ: Gemini Live APIとパートナーのストリーミングプラットフォーム(例:LiveKit/Agora)を介して、開発者はリアルタイムの吹き替えと多言語翻訳体験を構築できます。
メリット
一時停止が少ない連続ストリーミング翻訳により、より自然な会話が可能
70以上の言語の自動検出と多言語入力処理による幅広いカバレッジ
ノイズ耐性があり、実用的な環境向けに設計
SynthID透かしにより透明性が向上し、生成されたオーディオの悪用を抑止するのに役立ちます
デメリット
品質と同期のトレードオフにより、翻訳は話者から数秒遅れる可能性があります
Google Meetでの企業向け提供は初期段階では限定的です(広範な展開前のプライベートプレビュー)
提供された情報源では、発売時に価格/追加費用が明確に開示されていませんでした
Gemini 3.5 Live Translateの使い方
1) Gemini 3.5 Live Translateを使用する場所を選択する: ニーズに合ったサービスを選択してください。(a)個人的な使用にはGoogle翻訳アプリ(Android/iOS)、(b)会議にはGoogle Meet(企業/プライベートプレビュー)、または(c)独自のアプリにリアルタイム翻訳を組み込むにはGemini Live API / Google AI Studio(開発者/公開プレビュー)。
2) Google翻訳アプリ(Android/iOS)で使用する: AndroidまたはiOSにGoogle翻訳をインストール/更新します。アプリを開き、ライブ翻訳/会話スタイルのライブ翻訳体験を選択します。最もシームレスな体験のためにヘッドホンを接続してください。このモデルは、70以上の言語でほぼリアルタイムに翻訳音声をストリーミングし、トーン、ペース、ピッチを維持することを目指しています。
3) (Android) プライベート再生用の新しいリスニングモードを試す: サポートされているAndroidの展開では、3.5 Live Translateで新しいリスニングモードを有効にします。通常の通話のように携帯電話を耳に当てて、イヤホンから翻訳された音声を聞きます。これはヘッドホンがない場合や、他の人に翻訳を聞かれたくない場合に便利です。
4) Google Meet(企業/プライベートプレビュー)で使用する: プライベートプレビューに参加している一部のGoogle Workspaceビジネス顧客の場合、Google Meetを開いて会議を開始/参加します。更新されたMeetインターフェースを使用して音声翻訳にアクセスします。Meetは、単一の会議内で70以上の言語と2000以上の言語の組み合わせをサポートします(ピボットとしての英語に限定されません)。
5) Google AI Studioでコーディングなしで試す(開発者/公開プレビュー): Google AI Studioのライブ体験にアクセスし、「gemini-3.5-live-translate-preview」モデルを選択します。セッションをAUDIO出力に設定し、ターゲット言語コードを設定して翻訳を有効にします。マイクオーディオのストリーミングを開始すると、連続した翻訳オーディオと(オプションで)入力/出力の文字起こしを受信できます。
6) Gemini Live API(開発者/公開プレビュー)で構築する — 前提条件を設定する: Gemini Live APIとAPIキーにアクセスします。ストリーミングスタック(WebSocketまたはSDK)を決定します。リアルタイムメディアの配線を自分で構築したくない場合は、リアルタイムストリーミングインフラストラクチャを処理するソースで言及されているパートナープラットフォーム(Agora、Fishjam、LiveKit、Pipecat、Vision Agents)を検討してください。
7) ライブセッションを作成し、設定で翻訳を有効にする: 「gemini-3.5-live-translate-preview」モデルを使用してLive APIに接続し、responseModalities=["AUDIO"]、inputAudioTranscription enabled(オプション)、outputAudioTranscription enabled(オプション)、およびtargetLanguageCode(例:「pl」)とechoTargetLanguage(オプション)を含むtranslationConfigでLiveConnectConfig / generationConfigを設定します。
8) 音声を入力し、翻訳された音声を出力する(連続翻訳): マイクの音声フレーム/チャンクをキャプチャされたとおりに送信します。モデルはストリーミングされた音声を処理し、翻訳された音声を継続的に返します(話者から数秒遅れて)。返されたオーディオストリームをリアルタイムでリスナーに再生します。必要に応じて、有効になっている場合は入力/出力の文字起こしを表示します。
9) 多言語およびノイズの多い現実世界の入力を処理する: 多言語入力の場合、モデルの自動言語検出に頼ります(手動での言語切り替えは不要です)。実際の環境に合わせてUXを設計します。バックグラウンドノイズ、中断、音声の重複が発生する可能性があります。音声キャプチャを安定させ、誰が話しているか、どの言語が出力されているかを明確に示すインジケーターを提供します。
10) 出力を検証し、透かしを伝える: Gemini 3.5 Live Translateによって生成されたすべての音声には、SynthID(音声に埋め込まれた知覚できない透かし)が透かしとして含まれていることに注意してください。製品を構築している場合は、翻訳された音声がAIによって生成されたものであり、検出可能性のために透かしが含まれていることを文書化してください。
11) 公式デモとサンプルコードを使用して開発を加速する: GoogleのGemini Live APIデモとサンプルリポジトリ(例:LiveKitベースのライブ翻訳デモやその他のGemini Live APIの例)を確認して、動作するストリーミングパイプラインをコピーし、それをアプリのUIと展開環境に適応させます。
Gemini 3.5 Live Translateのよくある質問
Gemini 3.5 Live Translateは、Googleの最新オーディオモデルで、ほぼリアルタイムの音声間翻訳を可能にします。
Gemini 3.5 Live Translateウェブサイトの分析
Gemini 3.5 Live Translateのトラフィック&ランキング
8.5M
月間訪問数
#8357
グローバルランク
#353
カテゴリーランク
トラフィックトレンド: Nov 2024-Jun 2025
Gemini 3.5 Live Translateユーザーインサイト
00:00:53
平均訪問時間
1.93
訪問あたりのページ数
55.03%
ユーザーバウンス率
Gemini 3.5 Live Translateの主要地域
US: 26.94%
IN: 8.76%
GB: 5.14%
JP: 4.24%
DE: 3.01%
Others: 51.91%











