Google Genie 2 介绍

WebsiteContact for PricingAI 3D Model Generator

Genie 2 是 Google DeepMind 的基础世界模型，可以从单个图像提示生成无限多样的、可操作的、可玩的 3D 环境，用于训练和评估 AI 代理。

什么是 Google Genie 2

Genie 2 是由 Google DeepMind 开发的突破性 AI 模型，代表了生成交互式 3D 虚拟环境的重大进展。作为专注于 2D 世界的 Genie 1 的继任者，Genie 2 可以根据单个提示图像创建丰富、多样且完全可玩的 3D 环境。该模型使人类和 AI 代理能够使用标准的键盘和鼠标输入与这些生成的环境进行交互，在长达 60 秒的游戏过程中保持一致性，同时在物理、对象交互、角色动画和 NPC 行为模拟方面展示出复杂的性能。

Google Genie 2 是如何工作的？

Genie 2 作为一个自回归潜在扩散模型，训练于大型视频数据集。过程从一个图像提示开始（可以是由 Imagen 3 生成的或真实照片），定义所需的环境。系统首先将输入通过自动编码器，然后使用具有类似语言模型的因果掩码的大型变压器模型处理潜在帧。在推理过程中，Genie 2 以自回归方式逐帧生成环境，同时考虑过去的帧和用户操作，并使用无分类器引导来提高动作可控性。该模型展示了令人瞩目的能力，包括长期记忆（记住屏幕外的元素）、物理模拟、光照效果和复杂的角色动画。

Google Genie 2 的优势

Genie 2 的主要优势在于它能够通过为具身代理提供无限多样的训练环境来加速 AI 研究。它使研究人员和设计师无需传统的游戏开发资源即可快速原型化交互体验，从而快速实验新颖的环境。该系统能够处理各种输入类型（从概念艺术到真实照片），使其成为创意工作流程中的宝贵工具。此外，其生成一致的、物理感知的 3D 环境的能力为在多样化场景中测试和评估 AI 代理开辟了新的可能性，可能加速向更通用的 AI 系统的进展。