Google Genie 2 Introdução
O Genie 2 é o modelo de mundo fundamental da Google DeepMind que pode gerar infinitas variedades de ambientes 3D jogáveis e controláveis por ação a partir de um único prompt de imagem para treinamento e avaliação de agentes de IA.
Ver MaisO que é Google Genie 2
O Genie 2 é um modelo de IA inovador desenvolvido pela Google DeepMind que representa um avanço significativo na geração de ambientes virtuais 3D interativos. Como sucessor do Genie 1, que se concentrou em mundos 2D, o Genie 2 pode criar ambientes 3D ricos, diversos e totalmente jogáveis com base em uma única imagem de prompt. O modelo permite que tanto humanos quanto agentes de IA interajam com esses ambientes gerados usando entradas padrão de teclado e mouse, mantendo a consistência por até 60 segundos de jogabilidade, enquanto demonstra capacidades sofisticadas em física, interações de objetos, animação de personagens e simulação de comportamento de NPCs.
Como funciona o Google Genie 2?
O Genie 2 opera como um modelo de difusão latente autoregressivo treinado em um grande conjunto de dados de vídeo. O processo começa com um prompt de imagem (que pode ser gerado pelo Imagen 3 ou ser uma foto real) que define o ambiente desejado. O sistema primeiro passa a entrada por um autoencoder, depois processa os quadros latentes usando um grande modelo transformer com uma máscara causal semelhante aos modelos de linguagem. Durante a inferência, o Genie 2 gera o ambiente quadro a quadro de maneira autoregressiva, levando em conta quadros passados e ações do usuário enquanto usa orientação sem classificador para melhorar a controlabilidade da ação. O modelo demonstra capacidades notáveis, incluindo memória de longo prazo (lembrando elementos fora da tela), simulação de física, efeitos de iluminação e animações complexas de personagens.
Benefícios do Google Genie 2
O principal benefício do Genie 2 reside em sua capacidade de acelerar a pesquisa em IA, fornecendo ambientes de treinamento diversos e ilimitados para agentes incorporados. Ele permite a prototipagem rápida de experiências interativas sem a necessidade de recursos tradicionais de desenvolvimento de jogos, permitindo que pesquisadores e designers experimentem rapidamente com novos ambientes. A capacidade do sistema de trabalhar com vários tipos de entrada - desde arte conceitual até fotos reais - torna-o uma ferramenta valiosa para fluxos de trabalho criativos. Além disso, sua capacidade de gerar ambientes 3D consistentes e conscientes da física abre novas possibilidades para testar e avaliar agentes de IA em cenários diversos, potencialmente acelerando o progresso em direção a sistemas de IA mais gerais.
Tendências de Tráfego Mensal do Google Genie 2
O Google Genie 2 alcançou 4,6 milhões de visitas com um crescimento de 233,7% em dezembro. O lançamento do Gemini 2.0 introduziu recursos multimodais expandidos, incluindo geração de imagem e áudio, o que aumentou significativamente o engajamento dos usuários. Além disso, o Genie 2 pode gerar uma grande variedade de mundos 3D jogáveis, impulsionando ainda mais o interesse e o tráfego.
Ver histórico de tráfego
Ver Mais