Google's Gemini Live Brings Advanced Voice Chat to Your Phone

GoogleがGemini Liveを発表：音声AIの新時代

Googleは、ユーザーがAIチャットボットと半自然な音声会話を行えるようにする機能Gemini Liveの発表により、会話AIの分野で大きな飛躍を遂げました。カリフォルニア州マウンテンビューで開催されたGoogle's Made By Googleイベントで発表されたこの開発は、音声ベースのAI対話における注目すべき進歩を示しています。

Nano Banana 2 (Gemini 3.1 Flash Image) - Official

Freemium

AI Photo & Image Generator

Nano Banana 2（Gemini 3.1 Flash Image）は、Googleの最新の最先端画像生成モデルであり、プロレベルの品質とFlashスピードのパフォーマンスを組み合わせ、強化された視覚的な忠実度、実世界知識の統合、高度な編集機能を提供します。

ウェブサイトを訪問

Gemini Liveの主な特徴と機能

AIとの自然な会話

Gemini Liveは、ユーザーがGoogleの最新の大規模言語モデルと音声ベースの対話を行うことを可能にします。この機能は2秒未満の応答時間を誇り、よりスムーズな会話体験を生み出します。ユーザーはAIの発言を途中で遮ることができ、より動的で自然な対話を可能にします。

多様な音声オプション

Gemini Liveの際立った特徴の1つは、10種類の異なる音声オプションを提供していることです。これはOpenAIの類似機能が提供する3つの音声を上回っています。Googleは声優と協力してこれらの人間らしい音声を作成し、ユーザー体験を向上させています。

OpenAI: ChatGPT Atlas

Free Trial

Large Language Models (LLMs)

ChatGPT Atlasは、OpenAIのAI搭載ウェブブラウザであり、ChatGPTをブラウジング体験に直接統合し、ユーザーがウェブ上のどこでもChatGPTと対話できるようにすると同時に、ウェブページの要約、タスクの自動化、パーソナライズされたアシスタンスなどの機能を提供します。

ウェブサイトを訪問

複雑なクエリの処理

Gemini Liveは複雑なクエリの処理において印象的な能力を示しています。例えば、マウンテンビュー近くの家族向けワイナリーで、屋外エリアと近くに遊び場があるものを正確に推薦することができ、多面的なリクエストを処理し応答する能力を示しています。

Gemini Liveの制限と改善点

Gemini Liveは大きな前進を表していますが、いくつかの制限もあります：

時折の不正確さ

AIは時々、存在しない近隣の場所を言及するなど、不正確な情報を提供することがあります。これは、AIシステムからの信頼性の高い正確な応答を確保することが継続的な課題であることを浮き彫りにしています。

割り込み処理

GoogleはGemini Liveの発言を途中で遮る機能を謳っていますが、この機能は常にスムーズに機能するわけではありません。AIとユーザーが互いの発言を遮る場面があり、リアルタイムの会話管理に改善の余地があることを示しています。

限定的な機能

一部の競合他社とは異なり、Gemini Liveは提供されているオプション以外の歌唱や声の模倣ができません。また、ユーザーの声の感情的な抑揚を理解することに焦点を当てていません。これは他のAIアシスタントが探求している機能です。

Gemini Liveの未来

GoogleはGemini Liveを、野心的なマルチモーダルAIモデルであるProject Astraへの足がかりと見ています。現在は音声会話に限定されていますが、将来のバージョンではリアルタイムの動画理解を組み込むことを目指しており、AIアシスタントとの対話方法を革新する可能性があります。

Gemini Liveへのアクセス方法

Gemini Liveは現在、Androidデバイス上のGemini Advancedサブスクライバーが利用できます。このプレミアムサービスはGoogle One AIプレミアムプランの一部で、価格は月額20ドルです。Pixel 9 Proユーザーの場合、Gemini Liveを含むGemini Advancedへのアクセスが最初の1年間無料で提供されます。