Google Genie 2 紹介
Genie 2は、AIエージェントのトレーニングと評価のために、単一の画像プロンプトから無限のバリエーションのアクション制御可能なプレイ可能な3D環境を生成できるGoogle DeepMindの基盤世界モデルです。
もっと見るGoogle Genie 2とは
Genie 2は、インタラクティブな3D仮想環境を生成する上での重要な進歩を表すGoogle DeepMindによって開発された画期的なAIモデルです。2D世界に焦点を当てたGenie 1の後継として、Genie 2は単一のプロンプト画像に基づいて豊かで多様な、完全にプレイ可能な3D環境を作成できます。このモデルは、人間とAIエージェントの両方が標準のキーボードとマウス入力を使用して生成された環境と対話できるようにし、最大60秒のゲームプレイ中に一貫性を維持しながら、物理、オブジェクトの相互作用、キャラクターアニメーション、NPCの行動シミュレーションにおいて高度な能力を示します。
Google Genie 2はどのように機能しますか?
Genie 2は、大規模なビデオデータセットで訓練された自己回帰的潜在拡散モデルとして機能します。このプロセスは、望ましい環境を定義する画像プロンプト(Imagen 3によって生成されたものまたは実際の写真)から始まります。システムは最初に入力をオートエンコーダーを通過させ、その後、言語モデルに類似した因果マスクを使用して大規模なトランスフォーマーモデルで潜在フレームを処理します。推論中、Genie 2は過去のフレームとユーザーのアクションを考慮しながら、自己回帰的にフレームごとに環境を生成し、アクションの制御性を向上させるために分類子フリーのガイダンスを使用します。このモデルは、長期記憶(画面外の要素を記憶する)、物理シミュレーション、ライティング効果、複雑なキャラクターアニメーションを含む驚くべき能力を示します。
Google Genie 2のメリット
Genie 2の主な利点は、具現化されたエージェントのために無限の多様なトレーニング環境を提供することでAI研究を加速できる能力にあります。従来のゲーム開発リソースを必要とせずにインタラクティブな体験の迅速なプロトタイピングを可能にし、研究者やデザイナーが新しい環境で迅速に実験できるようにします。システムは、コンセプトアートから実際の写真まで、さまざまな入力タイプで機能する能力を持っており、クリエイティブなワークフローにとって貴重なツールとなります。さらに、一貫性のある物理を考慮した3D環境を生成する能力は、多様なシナリオでAIエージェントをテストおよび評価する新しい可能性を開き、より一般的なAIシステムへの進展を加速する可能性があります。
Google Genie 2 の月間トラフィック傾向
Google Genie 2は12月に460万回のアクセスを達成し、233.7%の成長を記録しました。Gemini 2.0のリリースでは、画像や音声の生成を含むマルチモーダル機能が拡張され、ユーザーエンゲージメントが大幅に向上しました。さらに、Genie 2はプレイ可能な多様な3D世界を生成することができ、関心とトラフィックを一層促進しています。
過去のトラフィックを表示
もっと見る