Google DeepMind's Genie 2: Revolutionizing Interactive 3D Worlds with AI

在人工智慧的重大進步中，Google DeepMind 的 Genie 2 於 2024 年 12 月 5 日 發佈，這是一款先進的模型，旨在從簡單的提示生成多樣且互動的 3D 環境。這一進步不僅增強了 AI 在遊戲和模擬中的能力，還開闢了新的研究和創意領域。

Google Genie 2 介紹

Google Genie 2 是 DeepMind 較早模型 Genie 的繼任者，代表了世界模型開發的重大進步。通過利用單張圖像或文本描述，Genie 2 可以生成可玩的 3D 場景，讓用戶通過跳躍或游泳等動作與環境互動。該模型基於廣泛的視頻資料集進行訓練，能夠模擬真實的物體互動、動畫和環境物理。

👉閱讀官方文章 | Genie 2: 大規模基礎世界模型

Google Genie 2 的主要特點

互動環境生成

Genie 2 可以生成豐富多樣的 3D 世界，這些世界看起來和感覺起來就像是 AAA 級別的視頻遊戲。用戶可以使用標準輸入設備，如鍵盤和鼠標，來導航這些環境。該模型能夠生成不同視角的場景——第一人稱、等距視圖和第三人稱視圖——提供沉浸式體驗。有了 Google Genie 2，用戶在虛擬空間中的參與潛力前所未有。

長期記憶

Genie 2 的一個突出特點是其長期記憶能力。這使得模型能夠記住暫時不在視野中的環境元素，並在它們重新出現時準確渲染。此功能解決了其他模型中常見的問題，如在長期模擬期間的偽影和不一致。DeepMind Genie 2 維持遊戲中的連貫性顯著提升了用戶體驗。

原型設計和研究應用

DeepMind 將 Genie 2 定位為研究人員和開發者的工具，而不僅僅是一個遊戲平台。該模型促進了互動體驗的快速原型設計，並為訓練 AI 代理提供獨特的環境。通過生成代理在訓練中未遇到的場景，它增強了代理在動態環境中適應和學習的能力。此外，Google Gencast 利用這項技術展示跨各種領域的創新應用。