Google Genie 2 Introduzione
Genie 2 è il modello di mondo fondante di Google DeepMind che può generare infinite varietà di ambienti 3D giocabili e controllabili da un'unica immagine di prompt per addestrare e valutare agenti IA.
Visualizza AltroCos'è Google Genie 2
Genie 2 è un modello di IA innovativo sviluppato da Google DeepMind che rappresenta un significativo avanzamento nella generazione di ambienti virtuali 3D interattivi. Come successore di Genie 1, che si concentrava su mondi 2D, Genie 2 può creare ambienti 3D ricchi, diversificati e completamente giocabili basati su un'unica immagine di prompt. Il modello consente sia agli esseri umani che agli agenti IA di interagire con questi ambienti generati utilizzando input standard da tastiera e mouse, mantenendo la coerenza per un massimo di 60 secondi di gioco mentre dimostra capacità sofisticate in fisica, interazioni con oggetti, animazione dei personaggi e simulazione del comportamento degli NPC.
Come funziona Google Genie 2?
Genie 2 opera come un modello di diffusione latente autoregressivo addestrato su un ampio dataset video. Il processo inizia con un'immagine di prompt (che può essere generata da Imagen 3 o essere una foto reale) che definisce l'ambiente desiderato. Il sistema passa prima l'input attraverso un autoencoder, quindi elabora i frame latenti utilizzando un ampio modello di trasformatori con una maschera causale simile a quella dei modelli linguistici. Durante l'inferenza, Genie 2 genera l'ambiente frame per frame in modo autoregressivo, tenendo conto dei frame passati e delle azioni dell'utente mentre utilizza una guida senza classificatore per migliorare la controllabilità delle azioni. Il modello dimostra capacità notevoli, tra cui memoria a lungo termine (ricordando elementi fuori dallo schermo), simulazione fisica, effetti di illuminazione e animazioni complesse dei personaggi.
Benefici di Google Genie 2
Il principale vantaggio di Genie 2 risiede nella sua capacità di accelerare la ricerca sull'IA fornendo ambienti di addestramento illimitati e diversificati per agenti incarnati. Consente la prototipazione rapida di esperienze interattive senza la necessità di risorse tradizionali per lo sviluppo di giochi, permettendo a ricercatori e designer di sperimentare rapidamente con ambienti nuovi. La capacità del sistema di lavorare con vari tipi di input - dall'arte concettuale a foto reali - lo rende uno strumento prezioso per flussi di lavoro creativi. Inoltre, la sua capacità di generare ambienti 3D consistenti e consapevoli della fisica apre nuove possibilità per testare e valutare agenti IA in scenari diversificati, potenzialmente accelerando i progressi verso sistemi di IA più generali.
Tendenze del traffico mensile di Google Genie 2
Google Genie 2 ha raggiunto 4,6 milioni di visite con una crescita del 233,7% a dicembre. Il rilascio di Gemini 2.0 ha introdotto funzionalità multimodali ampliate, tra cui la generazione di immagini e audio, che ha notevolmente migliorato il coinvolgimento degli utenti. Inoltre, Genie 2 può generare una vasta varietà di mondi 3D giocabili, aumentando ulteriormente l'interesse e il traffico.
Visualizza storico del traffico
Visualizza altro