Ожившие миры: новые горизонты генерации 3D-окружений

Автор: Денис Аветисян


Исследователи предлагают подход к созданию интерактивных 3D-миров, где последовательность действий формирует устойчивое и правдоподобное окружение.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Система PERSIST обеспечивает долговременную пространственную память, моделируя динамику трёхмерного окружения вокруг агента, где параметры камеры служат ключом для поиска релевантных признаков в этом окружении посредством геометрической проекции, визуализированной в виде цветных вокселей.
Система PERSIST обеспечивает долговременную пространственную память, моделируя динамику трёхмерного окружения вокруг агента, где параметры камеры служат ключом для поиска релевантных признаков в этом окружении посредством геометрической проекции, визуализированной в виде цветных вокселей.

Представлена система PERSIST, использующая постоянную 3D-модель мира для улучшения согласованности и реалистичности генерируемых сцен.

Существующие интерактивные модели мира, генерирующие видео в ответ на действия пользователя, часто сталкиваются с проблемой обеспечения пространственной и временной согласованности. В работе ‘Beyond Pixel Histories: World Models with Persistent 3D State’ представлена новая парадигма моделирования мира — PERSIST, которая явно отслеживает устойчивое 3D-представление окружения, камеры и рендерера. Это позволяет синтезировать новые кадры с сохранением геометрической непротиворечивости и долгосрочной стабильностью, значительно улучшая качество генерируемых интерактивных сцен. Какие перспективы открывает явное 3D-моделирование для создания реалистичных и управляемых виртуальных миров, а также обучения агентов в них?


За пределами пикселей: Необходимость устойчивых виртуальных миров

Традиционные генеративные модели, несмотря на впечатляющие успехи в создании детализированных изображений и коротких видео, часто сталкиваются с проблемой поддержания согласованности при моделировании длительных взаимодействий или эволюции сцен. Это проявляется в визуальной нестабильности, нелогичных изменениях объектов и общей нереалистичности получаемого опыта. Причина кроется в том, что модели, обучаясь на отдельных кадрах или фрагментах, не способны эффективно учитывать причинно-следственные связи и сохранять внутреннюю целостность мира на протяжении длительного времени. В результате, даже небольшие ошибки в начале генерации могут накапливаться и приводить к значительным искажениям и неправдоподобным ситуациям в более отдаленном будущем, что делает создание убедительных и интерактивных виртуальных сред сложной задачей.

Для создания правдоподобных и интерактивных виртуальных сред необходимо поддерживать согласованное внутреннее представление мира. Вместо генерации каждого кадра изолированно, современные системы стремятся к формированию устойчивой модели окружения, где объекты и события связаны между собой логически и причинно. Такая модель позволяет предсказывать последствия действий, обеспечивать согласованность визуальных изменений во времени и поддерживать долгосрочную интерактивность. Представьте себе виртуальный город: если система оперирует лишь отдельными изображениями, то изменение погоды или перемещение объектов будет казаться случайным и нелогичным. Вместо этого, поддержание внутреннего представления о расположении зданий, дорог, и даже привычках виртуальных жителей, позволяет создавать более реалистичные и убедительные взаимодействия, где каждое действие имеет последствия и влияет на дальнейшее развитие событий.

Существующие авторегрессионные модели, несмотря на свою вычислительную мощь, часто демонстрируют накопление ошибок при генерации последовательностей, что приводит к нереалистичным и непоследовательным результатам со временем. В процессе последовательной генерации, каждая новая часть опирается на предыдущую, и даже небольшие погрешности на ранних этапах могут экспоненциально усиливаться, приводя к существенным искажениям в итоговом результате. Это особенно заметно при создании сложных, динамичных сред, где требуется долгосрочная согласованность и правдоподобность. В отличие от моделей, способных учитывать глобальный контекст, авторегрессионные системы склонны к «забыванию» начальных условий и утрате согласованности в долгосрочной перспективе, что ограничивает их применимость в задачах, требующих устойчивой генерации сложных миров.

Несмотря на локальные искажения и временное исчезновение отдельных блоков в 3D-репрезентации, PERSIST демонстрирует глобальную когерентность и стабилизирует процесс генерации, позволяя восстанавливаться после визуальных артефактов и создавать последовательности длиной в тысячи шагов, даже при увеличении частоты таких артефактов из-за авторегрессивного дрейфа.
Несмотря на локальные искажения и временное исчезновение отдельных блоков в 3D-репрезентации, PERSIST демонстрирует глобальную когерентность и стабилизирует процесс генерации, позволяя восстанавливаться после визуальных артефактов и создавать последовательности длиной в тысячи шагов, даже при увеличении частоты таких артефактов из-за авторегрессивного дрейфа.

PERSIST: Система для моделирования согласованного мира

Система PERSIST использует динамическое 3D-представление мира, реализованное в латентном 3D-пространстве. Это позволяет создать согласованную основу для генерации визуального контента, поскольку латентное пространство обеспечивает компактное и эффективное представление геометрии и текстур окружения. Динамичность представления означает, что модель мира обновляется в реальном времени в ответ на действия агента или изменения в окружении. Использование латентного пространства позволяет снизить вычислительную сложность и повысить эффективность генерации, сохраняя при этом детализацию и реалистичность визуализации.

В основе PERSIST лежит разделение на две ключевые составляющие: модель мирового пространства (World-Frame Model) и модуль генерации изображения из мирового пространства (World-to-Pixel Generation). Модель мирового пространства отвечает за поддержание и обновление внутренней 3D-репрезентации окружения, включая геометрию объектов и их свойства. Модуль генерации изображения, в свою очередь, преобразует эту внутреннюю репрезентацию в визуальный вывод, соответствующий текущей точке зрения агента. Такое разделение позволяет системе эффективно управлять сложным 3D-миром и генерировать согласованные изображения, связывая внутреннее представление окружения с визуальным результатом.

Модель камеры является ключевым компонентом системы PERSIST, обеспечивающим точное отслеживание позиции и ориентации агента в симулируемой среде. Данная модель учитывает внутренние параметры камеры, такие как фокусное расстояние и разрешение сенсора, а также внешние параметры — положение и угол обзора в трехмерном пространстве. Точное отслеживание взгляда агента необходимо для корректной проекции трехмерной модели мира на двухмерное изображение, генерируемое системой, и обеспечивает согласованность визуального представления с перемещениями и действиями агента в симуляции. Погрешности в модели камеры могут привести к искажениям изображения и несоответствиям между виртуальной и наблюдаемой средой.

Система PERSIST, начиная с одного пикселя, последовательно обрабатывает действия пользователя, сначала восстанавливая 3D-окружение в виде латентного представления, затем предсказывая параметры камеры, проецируя окружение в плоскость изображения и, наконец, уточняя пиксельные латенты с использованием информации о 3D-структуре для повышения реалистичности.
Система PERSIST, начиная с одного пикселя, последовательно обрабатывает действия пользователя, сначала восстанавливая 3D-окружение в виде латентного представления, затем предсказывая параметры камеры, проецируя окружение в плоскость изображения и, наконец, уточняя пиксельные латенты с использованием информации о 3D-структуре для повышения реалистичности.

Исправленное сопоставление потоков и генерация на основе диффузии

Метод Rectified Flow Matching играет ключевую роль в модулях генерации мирового пространства и пикселей, обеспечивая восстановление чистых данных из шума и реалистичность выходных данных. Этот подход позволяет эффективно преобразовывать зашумленные входные данные в целевое представление, что критически важно для создания достоверных 3D-моделей мирового пространства и высококачественных пиксельных изображений. В рамках данной архитектуры, Rectified Flow Matching служит механизмом, устраняющим артефакты и неточности, возникающие в процессе генерации, и гарантирует соответствие результатов реальным данным.

В основе генеративного процесса лежат диффузионные модели, использующие архитектуру DiT (Diffusion Transformer) и механизм каузального внимания. Данный подход позволяет последовательно преобразовывать случайный шум в реалистичные данные, обеспечивая устойчивость и надежность генерации. Архитектура DiT объединяет преимущества трансформеров и диффузионных моделей, что позволяет эффективно моделировать сложные распределения данных и генерировать высококачественные результаты. Каузальное внимание, в свою очередь, обеспечивает правильную последовательность генерации, предотвращая артефакты и обеспечивая когерентность выходных данных.

Модель мирового кадра использует 3D ResNet в сочетании с вариационным автоэнкодером (VAE) для эффективного сжатия и реконструкции состояния трехмерного мира. Архитектура ResNet обеспечивает возможность обучения глубоких сетей без проблемы затухания градиента, а VAE позволяет кодировать входные данные в латентное пространство меньшей размерности, что снижает вычислительные затраты и обеспечивает сжатие данных. Реконструкция состояния мира из этого сжатого представления выполняется декодером VAE, обеспечивая восстановление детализированной трехмерной сцены. Данный подход позволяет эффективно представлять и манипулировать сложными трехмерными данными, необходимыми для генерации реалистичных изображений.

Алгоритм PERSIST позволяет генерировать разнообразные, но согласованные начальные кадры мира на основе единственного RGB-изображения, как видно по различным сгенерированным кадрам <span class="katex-eq" data-katex-display="false">{\mathcal{W}}\_{\theta}</span> для каждого входного изображения.
Алгоритм PERSIST позволяет генерировать разнообразные, но согласованные начальные кадры мира на основе единственного RGB-изображения, как видно по различным сгенерированным кадрам {\mathcal{W}}\_{\theta} для каждого входного изображения.

Подтверждение эффективности PERSIST: Согласованность и реалистичность

Количественная оценка продемонстрировала, что система PERSIST генерирует видеоматериалы, значительно более приближенные к реальным данным, чем конкурирующие методы. В ходе пользовательских исследований, участники последовательно отмечали повышенную реалистичность и правдоподобность видео, созданных PERSIST, по сравнению с результатами, полученными с использованием альтернативных подходов. Этот вывод подтверждается не только субъективными оценками, но и объективными метриками, демонстрирующими, что PERSIST точнее воспроизводит сложные динамические процессы и визуальные характеристики, наблюдаемые в реальном мире. Такое превосходство в достоверности делает PERSIST особенно перспективной платформой для создания высококачественного синтетического контента, применимого в широком спектре областей — от компьютерной графики и виртуальной реальности до обучения искусственного интеллекта и научных симуляций.

Исследования с участием пользователей демонстрируют, что различные конфигурации PERSIST последовательно превосходят базовые модели по ключевым параметрам оценки качества генерируемого видео. Особенно заметно превосходство в визуальной достоверности — изображения, созданные PERSIST, воспринимаются как более реалистичные и детализированные. Кроме того, система обеспечивает высокую 3D-пространственную согласованность, предотвращая искажения перспективы и неестественное расположение объектов в сцене. Важно отметить, что PERSIST также гарантирует временную стабильность окружения, избегая резких изменений и скачков, что способствует созданию более правдоподобных и убедительных видеороликов, максимально приближенных к реальным условиям съемки.

В основе разработанной системы PERSIST лежит эффективное решение проблемы систематической ошибки, известной как “смещение экспозиции”, часто возникающей в авторегрессионных моделях генерации видео. Данное смещение проявляется в тенденции модели отдавать предпочтение наиболее часто встречающимся данным в обучающем наборе, что приводит к снижению разнообразия и реалистичности генерируемых видеопотоков. PERSIST успешно нейтрализует этот эффект, используя специализированные методы, которые позволяют модели более равномерно исследовать пространство возможных вариантов и генерировать более стабильные и правдоподобные видеоролики, приближенные к реальным данным. Это достигается за счет снижения зависимости от предвзятых данных и обеспечения более сбалансированного представления различных сценариев, что, в свою очередь, значительно улучшает визуальное качество и достоверность генерируемого контента.

Инициализируясь как с одиночным RGB-кадром, так и с RGB и мировой системой координат, PERSIST способен генерировать связные и динамично развивающиеся виртуальные миры, демонстрируя это в процессе авторегрессивного развертывания в 600 временных шагов.
Инициализируясь как с одиночным RGB-кадром, так и с RGB и мировой системой координат, PERSIST способен генерировать связные и динамично развивающиеся виртуальные миры, демонстрируя это в процессе авторегрессивного развертывания в 600 временных шагов.

Исследование, представленное в статье, акцентирует внимание на создании устойчивых трехмерных моделей мира для интерактивной генерации контента. Это требует отслеживания последовательных состояний окружающей среды, что напрямую связано с идеей пространственной согласованности. Как отмечал Эндрю Ын: «Мы должны быть осторожны с данными, которые используем, и убедиться, что они отражают реальность». В контексте PERSIST, это означает тщательную проверку границ данных и обеспечение того, чтобы сгенерированные сцены соответствовали физическим законам и логике мира, что критически важно для создания правдоподобных и увлекательных взаимодействий.

Что дальше?

Представленная работа, безусловно, продвигает область генерации интерактивных миров, но не решает фундаментальной проблемы: как научить машину не просто воспроизводить видимое, а понимать причинно-следственные связи внутри трёхмерного пространства. Постоянное отслеживание 3D-представления — шаг вперёд, но остаётся вопрос о том, как эта информация интегрируется с более сложными моделями поведения и взаимодействия. Отклонения от идеальной когерентности, кажущиеся аномалиями, представляют собой ценнейшие точки для исследования — именно в них может скрываться ключ к более глубокому пониманию структуры мира.

Очевидным направлением развития является исследование методов, позволяющих моделировать не только геометрию, но и физические свойства объектов и среды. Простое отслеживание визуальных изменений недостаточно; необходимо научить систему предсказывать последствия действий, учитывать инерцию, гравитацию и другие физические законы. Каждое несоответствие между предсказанным и наблюдаемым результатом — это сигнал о пробелах в понимании, возможность уточнить модель и приблизиться к созданию действительно правдоподобных и интерактивных миров.

Нельзя забывать и о роли случайности и непредсказуемости. Реальный мир редко бывает идеально упорядоченным; в нём всегда есть место для шума и отклонений. Попытки создать идеально когерентные миры могут привести к неестественности и искусственности. Поэтому важно научить систему не только предсказывать, но и генерировать случайные события, добавлять в мир элементы неожиданности и хаоса — именно это делает его живым и интересным.


Оригинал статьи: https://arxiv.org/pdf/2603.03482.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-05 12:38