Google Genie 2 Introduction
Genie 2 est le modèle de monde fondamental de Google DeepMind qui peut générer d'innombrables variétés d'environnements 3D jouables et contrôlables par action à partir d'une seule image d'invite pour former et évaluer des agents IA.
Voir plusQu'est-ce que Google Genie 2
Genie 2 est un modèle d'IA révolutionnaire développé par Google DeepMind qui représente une avancée significative dans la génération d'environnements virtuels 3D interactifs. En tant que successeur de Genie 1 qui se concentrait sur les mondes 2D, Genie 2 peut créer des environnements 3D riches, divers et entièrement jouables à partir d'une seule image d'invite. Le modèle permet à la fois aux humains et aux agents IA d'interagir avec ces environnements générés en utilisant des entrées standard de clavier et de souris, maintenant la cohérence pendant jusqu'à 60 secondes de jeu tout en démontrant des capacités sophistiquées en physique, interactions d'objets, animation de personnages et simulation de comportement d'NPC.
Comment fonctionne Google Genie 2 ?
Genie 2 fonctionne comme un modèle de diffusion latente autoregressif entraîné sur un grand ensemble de données vidéo. Le processus commence par une image d'invite (qui peut être générée par Imagen 3 ou être une vraie photo) qui définit l'environnement souhaité. Le système passe d'abord l'entrée à travers un autoencodeur, puis traite les images latentes à l'aide d'un grand modèle de transformateur avec un masque causal similaire à celui des modèles de langage. Pendant l'inférence, Genie 2 génère l'environnement image par image de manière autoregressive, tenant compte des images précédentes et des actions de l'utilisateur tout en utilisant une guidance sans classificateur pour améliorer la contrôlabilité des actions. Le modèle démontre des capacités remarquables, y compris la mémoire à long terme (se souvenir des éléments hors écran), la simulation physique, les effets d'éclairage et des animations de personnages complexes.
Avantages de Google Genie 2
Le principal avantage de Genie 2 réside dans sa capacité à accélérer la recherche en IA en fournissant des environnements d'entraînement divers et illimités pour les agents incarnés. Il permet le prototypage rapide d'expériences interactives sans avoir besoin de ressources traditionnelles de développement de jeux, permettant aux chercheurs et aux concepteurs d'expérimenter rapidement avec des environnements novateurs. La capacité du système à travailler avec divers types d'entrées - de l'art conceptuel à de vraies photos - en fait un outil précieux pour les flux de travail créatifs. De plus, sa capacité à générer des environnements 3D cohérents et conscients de la physique ouvre de nouvelles possibilités pour tester et évaluer les agents IA dans divers scénarios, accélérant potentiellement les progrès vers des systèmes d'IA plus généraux.
Tendances du trafic mensuel de Google Genie 2
Google Genie 2 a atteint 4,6M de visites avec une croissance de 233,7% en décembre. La sortie de Gemini 2.0 a introduit des capacités multimodales étendues, notamment la génération d'images et d'audio, ce qui a considérablement amélioré l'engagement des utilisateurs. De plus, Genie 2 peut générer une grande variété de mondes 3D jouables, stimulant davantage l'intérêt et le trafic.
Voir l'historique du trafic
Voir plus