Google Genie 2 Введение
Genie 2 - это основная модель мира Google DeepMind, которая может генерировать бесконечные варианты управляемых действиями, играбельных 3D-сред из одного изображения-подсказки для обучения и оценки агентов ИИ.
Посмотреть большеЧто такое Google Genie 2
Genie 2 - это прорывная модель ИИ, разработанная Google DeepMind, которая представляет собой значительный шаг вперед в создании интерактивных 3D-виртуальных сред. В качестве преемника Genie 1, который сосредоточился на 2D-мире, Genie 2 может создавать богатые, разнообразные и полностью играбельные 3D-среды на основе одного изображения-подсказки. Модель позволяет как людям, так и агентам ИИ взаимодействовать с этими сгенерированными средами, используя стандартные клавиатурные и мышиные команды, поддерживая последовательность до 60 секунд игрового процесса, демонстрируя при этом сложные возможности в области физики, взаимодействия объектов, анимации персонажей и моделирования поведения NPC.
Как работает Google Genie 2?
Genie 2 работает как авторегрессионная латентная диффузионная модель, обученная на большом наборе видео. Процесс начинается с изображения-подсказки (которое может быть сгенерировано Imagen 3 или быть реальной фотографией), которое определяет желаемую среду. Система сначала пропускает входные данные через автоэнкодер, затем обрабатывает латентные кадры с помощью большой трансформерной модели с каузальной маской, аналогичной языковым моделям. Во время вывода Genie 2 генерирует среду кадр за кадром в авторегрессионном режиме, учитывая прошлые кадры и действия пользователя, используя при этом безклассификационное руководство для улучшения управляемости действий. Модель демонстрирует замечательные возможности, включая долгосрочную память (запоминание элементов вне экрана), симуляцию физики, эффекты освещения и сложные анимации персонажей.
Преимущества Google Genie 2
Основное преимущество Genie 2 заключается в его способности ускорять исследования в области ИИ, предоставляя неограниченные разнообразные тренировочные среды для воплощенных агентов. Он позволяет быстро прототипировать интерактивные опыты без необходимости в традиционных ресурсах разработки игр, позволяя исследователям и дизайнерам быстро экспериментировать с новыми средами. Способность системы работать с различными типами входных данных - от концепт-арта до реальных фотографий - делает ее ценным инструментом для креативных рабочих процессов. Кроме того, ее способность генерировать последовательные, учитывающие физику 3D-среды открывает новые возможности для тестирования и оценки агентов ИИ в различных сценариях, потенциально ускоряя прогресс к более общим системам ИИ.
Тенденции ежемесячного трафика Google Genie 2
Google Genie 2 достиг 4,6 млн посещений с ростом на 233,7% в декабре. Выпуск Gemini 2.0 представил расширенные мультимодальные возможности, включая генерацию изображений и аудио, что значительно повысило вовлеченность пользователей. Кроме того, Genie 2 может создавать огромное разнообразие интерактивных 3D-миров, что дополнительно стимулирует интерес и трафик.
Посмотреть историю трафика
Показать больше