Google DeepMind's Genie 2: Revolutionizing Interactive 3D Worlds with AI

在人工智能领域取得了重大进展，Google DeepMind 的 Genie 2 于 2024 年 12 月 5 日 发布，这是一个复杂模型，旨在从简单的提示生成多样且互动的 3D 环境。这一进展不仅增强了 AI 在游戏和模拟中的能力，还为研究和创造力开辟了新的途径。

Google Genie 2 介绍

Google Genie 2 是 DeepMind 早期模型 Genie 的继任者，代表了世界模型开发的重大进步。通过使用单张图像或文本描述，Genie 2 可以生成可玩的 3D 场景，允许用户通过跳跃或游泳等动作与环境互动。该模型经过大量视频数据集的训练，能够模拟真实的物体互动、动画和环境物理。

👉阅读官方文章 | Genie 2: 大规模基础世界模型

Google Genie 2 的关键特性

互动环境生成

Genie 2 可以生成大量丰富且逼真的 3D 世界，看起来和感觉上都像 AAA 级视频游戏。用户可以使用标准输入设备（如键盘和鼠标）导航这些环境。该模型能够生成不同视角的场景——第一人称、等距视角和第三人称视角——提供沉浸式体验。借助 Google Genie 2，用户在虚拟空间中的参与潜力前所未有。

长时记忆

Genie 2 的一个突出特点是其长时记忆能力。这使模型能够记住暂时不在视野内的环境元素，并在它们重新出现时准确渲染。这一功能解决了其他模型中常见的问题，如长时间模拟中的伪影和不一致。DeepMind Genie 2 维持游戏连续性的能力显著提升了用户体验。

原型设计和研究应用

DeepMind 将 Genie 2 定位为研究人员和开发者的工具，而不仅仅是一个游戏平台。该模型促进了互动体验的快速原型设计，并为训练 AI 代理提供了独特的环境。通过生成代理在训练中未遇到的情景，它增强了代理在动态环境中的适应和学习能力。此外，Google Gencast 利用这项技术展示了各个领域的创新应用。