Автор: Денис Аветисян
Исследователи предлагают подход к созданию интерактивных 3D-миров, где последовательность действий формирует устойчивое и правдоподобное окружение.
Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.
Купить акции "голубых фишек"
Представлена система PERSIST, использующая постоянную 3D-модель мира для улучшения согласованности и реалистичности генерируемых сцен.
Существующие интерактивные модели мира, генерирующие видео в ответ на действия пользователя, часто сталкиваются с проблемой обеспечения пространственной и временной согласованности. В работе ‘Beyond Pixel Histories: World Models with Persistent 3D State’ представлена новая парадигма моделирования мира — PERSIST, которая явно отслеживает устойчивое 3D-представление окружения, камеры и рендерера. Это позволяет синтезировать новые кадры с сохранением геометрической непротиворечивости и долгосрочной стабильностью, значительно улучшая качество генерируемых интерактивных сцен. Какие перспективы открывает явное 3D-моделирование для создания реалистичных и управляемых виртуальных миров, а также обучения агентов в них?
За пределами пикселей: Необходимость устойчивых виртуальных миров
Традиционные генеративные модели, несмотря на впечатляющие успехи в создании детализированных изображений и коротких видео, часто сталкиваются с проблемой поддержания согласованности при моделировании длительных взаимодействий или эволюции сцен. Это проявляется в визуальной нестабильности, нелогичных изменениях объектов и общей нереалистичности получаемого опыта. Причина кроется в том, что модели, обучаясь на отдельных кадрах или фрагментах, не способны эффективно учитывать причинно-следственные связи и сохранять внутреннюю целостность мира на протяжении длительного времени. В результате, даже небольшие ошибки в начале генерации могут накапливаться и приводить к значительным искажениям и неправдоподобным ситуациям в более отдаленном будущем, что делает создание убедительных и интерактивных виртуальных сред сложной задачей.
Для создания правдоподобных и интерактивных виртуальных сред необходимо поддерживать согласованное внутреннее представление мира. Вместо генерации каждого кадра изолированно, современные системы стремятся к формированию устойчивой модели окружения, где объекты и события связаны между собой логически и причинно. Такая модель позволяет предсказывать последствия действий, обеспечивать согласованность визуальных изменений во времени и поддерживать долгосрочную интерактивность. Представьте себе виртуальный город: если система оперирует лишь отдельными изображениями, то изменение погоды или перемещение объектов будет казаться случайным и нелогичным. Вместо этого, поддержание внутреннего представления о расположении зданий, дорог, и даже привычках виртуальных жителей, позволяет создавать более реалистичные и убедительные взаимодействия, где каждое действие имеет последствия и влияет на дальнейшее развитие событий.
Существующие авторегрессионные модели, несмотря на свою вычислительную мощь, часто демонстрируют накопление ошибок при генерации последовательностей, что приводит к нереалистичным и непоследовательным результатам со временем. В процессе последовательной генерации, каждая новая часть опирается на предыдущую, и даже небольшие погрешности на ранних этапах могут экспоненциально усиливаться, приводя к существенным искажениям в итоговом результате. Это особенно заметно при создании сложных, динамичных сред, где требуется долгосрочная согласованность и правдоподобность. В отличие от моделей, способных учитывать глобальный контекст, авторегрессионные системы склонны к «забыванию» начальных условий и утрате согласованности в долгосрочной перспективе, что ограничивает их применимость в задачах, требующих устойчивой генерации сложных миров.

PERSIST: Система для моделирования согласованного мира
Система PERSIST использует динамическое 3D-представление мира, реализованное в латентном 3D-пространстве. Это позволяет создать согласованную основу для генерации визуального контента, поскольку латентное пространство обеспечивает компактное и эффективное представление геометрии и текстур окружения. Динамичность представления означает, что модель мира обновляется в реальном времени в ответ на действия агента или изменения в окружении. Использование латентного пространства позволяет снизить вычислительную сложность и повысить эффективность генерации, сохраняя при этом детализацию и реалистичность визуализации.
В основе PERSIST лежит разделение на две ключевые составляющие: модель мирового пространства (World-Frame Model) и модуль генерации изображения из мирового пространства (World-to-Pixel Generation). Модель мирового пространства отвечает за поддержание и обновление внутренней 3D-репрезентации окружения, включая геометрию объектов и их свойства. Модуль генерации изображения, в свою очередь, преобразует эту внутреннюю репрезентацию в визуальный вывод, соответствующий текущей точке зрения агента. Такое разделение позволяет системе эффективно управлять сложным 3D-миром и генерировать согласованные изображения, связывая внутреннее представление окружения с визуальным результатом.
Модель камеры является ключевым компонентом системы PERSIST, обеспечивающим точное отслеживание позиции и ориентации агента в симулируемой среде. Данная модель учитывает внутренние параметры камеры, такие как фокусное расстояние и разрешение сенсора, а также внешние параметры — положение и угол обзора в трехмерном пространстве. Точное отслеживание взгляда агента необходимо для корректной проекции трехмерной модели мира на двухмерное изображение, генерируемое системой, и обеспечивает согласованность визуального представления с перемещениями и действиями агента в симуляции. Погрешности в модели камеры могут привести к искажениям изображения и несоответствиям между виртуальной и наблюдаемой средой.

Исправленное сопоставление потоков и генерация на основе диффузии
Метод Rectified Flow Matching играет ключевую роль в модулях генерации мирового пространства и пикселей, обеспечивая восстановление чистых данных из шума и реалистичность выходных данных. Этот подход позволяет эффективно преобразовывать зашумленные входные данные в целевое представление, что критически важно для создания достоверных 3D-моделей мирового пространства и высококачественных пиксельных изображений. В рамках данной архитектуры, Rectified Flow Matching служит механизмом, устраняющим артефакты и неточности, возникающие в процессе генерации, и гарантирует соответствие результатов реальным данным.
В основе генеративного процесса лежат диффузионные модели, использующие архитектуру DiT (Diffusion Transformer) и механизм каузального внимания. Данный подход позволяет последовательно преобразовывать случайный шум в реалистичные данные, обеспечивая устойчивость и надежность генерации. Архитектура DiT объединяет преимущества трансформеров и диффузионных моделей, что позволяет эффективно моделировать сложные распределения данных и генерировать высококачественные результаты. Каузальное внимание, в свою очередь, обеспечивает правильную последовательность генерации, предотвращая артефакты и обеспечивая когерентность выходных данных.
Модель мирового кадра использует 3D ResNet в сочетании с вариационным автоэнкодером (VAE) для эффективного сжатия и реконструкции состояния трехмерного мира. Архитектура ResNet обеспечивает возможность обучения глубоких сетей без проблемы затухания градиента, а VAE позволяет кодировать входные данные в латентное пространство меньшей размерности, что снижает вычислительные затраты и обеспечивает сжатие данных. Реконструкция состояния мира из этого сжатого представления выполняется декодером VAE, обеспечивая восстановление детализированной трехмерной сцены. Данный подход позволяет эффективно представлять и манипулировать сложными трехмерными данными, необходимыми для генерации реалистичных изображений.

Подтверждение эффективности PERSIST: Согласованность и реалистичность
Количественная оценка продемонстрировала, что система PERSIST генерирует видеоматериалы, значительно более приближенные к реальным данным, чем конкурирующие методы. В ходе пользовательских исследований, участники последовательно отмечали повышенную реалистичность и правдоподобность видео, созданных PERSIST, по сравнению с результатами, полученными с использованием альтернативных подходов. Этот вывод подтверждается не только субъективными оценками, но и объективными метриками, демонстрирующими, что PERSIST точнее воспроизводит сложные динамические процессы и визуальные характеристики, наблюдаемые в реальном мире. Такое превосходство в достоверности делает PERSIST особенно перспективной платформой для создания высококачественного синтетического контента, применимого в широком спектре областей — от компьютерной графики и виртуальной реальности до обучения искусственного интеллекта и научных симуляций.
Исследования с участием пользователей демонстрируют, что различные конфигурации PERSIST последовательно превосходят базовые модели по ключевым параметрам оценки качества генерируемого видео. Особенно заметно превосходство в визуальной достоверности — изображения, созданные PERSIST, воспринимаются как более реалистичные и детализированные. Кроме того, система обеспечивает высокую 3D-пространственную согласованность, предотвращая искажения перспективы и неестественное расположение объектов в сцене. Важно отметить, что PERSIST также гарантирует временную стабильность окружения, избегая резких изменений и скачков, что способствует созданию более правдоподобных и убедительных видеороликов, максимально приближенных к реальным условиям съемки.
В основе разработанной системы PERSIST лежит эффективное решение проблемы систематической ошибки, известной как “смещение экспозиции”, часто возникающей в авторегрессионных моделях генерации видео. Данное смещение проявляется в тенденции модели отдавать предпочтение наиболее часто встречающимся данным в обучающем наборе, что приводит к снижению разнообразия и реалистичности генерируемых видеопотоков. PERSIST успешно нейтрализует этот эффект, используя специализированные методы, которые позволяют модели более равномерно исследовать пространство возможных вариантов и генерировать более стабильные и правдоподобные видеоролики, приближенные к реальным данным. Это достигается за счет снижения зависимости от предвзятых данных и обеспечения более сбалансированного представления различных сценариев, что, в свою очередь, значительно улучшает визуальное качество и достоверность генерируемого контента.

Исследование, представленное в статье, акцентирует внимание на создании устойчивых трехмерных моделей мира для интерактивной генерации контента. Это требует отслеживания последовательных состояний окружающей среды, что напрямую связано с идеей пространственной согласованности. Как отмечал Эндрю Ын: «Мы должны быть осторожны с данными, которые используем, и убедиться, что они отражают реальность». В контексте PERSIST, это означает тщательную проверку границ данных и обеспечение того, чтобы сгенерированные сцены соответствовали физическим законам и логике мира, что критически важно для создания правдоподобных и увлекательных взаимодействий.
Что дальше?
Представленная работа, безусловно, продвигает область генерации интерактивных миров, но не решает фундаментальной проблемы: как научить машину не просто воспроизводить видимое, а понимать причинно-следственные связи внутри трёхмерного пространства. Постоянное отслеживание 3D-представления — шаг вперёд, но остаётся вопрос о том, как эта информация интегрируется с более сложными моделями поведения и взаимодействия. Отклонения от идеальной когерентности, кажущиеся аномалиями, представляют собой ценнейшие точки для исследования — именно в них может скрываться ключ к более глубокому пониманию структуры мира.
Очевидным направлением развития является исследование методов, позволяющих моделировать не только геометрию, но и физические свойства объектов и среды. Простое отслеживание визуальных изменений недостаточно; необходимо научить систему предсказывать последствия действий, учитывать инерцию, гравитацию и другие физические законы. Каждое несоответствие между предсказанным и наблюдаемым результатом — это сигнал о пробелах в понимании, возможность уточнить модель и приблизиться к созданию действительно правдоподобных и интерактивных миров.
Нельзя забывать и о роли случайности и непредсказуемости. Реальный мир редко бывает идеально упорядоченным; в нём всегда есть место для шума и отклонений. Попытки создать идеально когерентные миры могут привести к неестественности и искусственности. Поэтому важно научить систему не только предсказывать, но и генерировать случайные события, добавлять в мир элементы неожиданности и хаоса — именно это делает его живым и интересным.
Оригинал статьи: https://arxiv.org/pdf/2603.03482.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Деформация сеток: новый подход на основе нейронных операторов
- Новые смартфоны. Что купить в марте 2026.
- Что такое Bazzite и лучше ли она, чем Windows для PC-гейминга? Я установил этот набирающий популярность дистрибутив Linux, чтобы проверить это самостоятельно.
- vivo iQOO Z10x ОБЗОР: яркий экран, удобный сенсор отпечатков, объёмный накопитель
- Ближний Восток и Рубль: Как Геополитика Перекраивает Российский Рынок (02.03.2026 20:32)
- Microsoft Edge позволяет воспроизводить YouTube в фоновом режиме на Android — подписка Premium не требуется.
- Российский рынок в 2025: Инвестиции, Экспорт и Новые Возможности (27.02.2026 15:32)
- МосБиржа на подъеме: что поддерживает рынок и какие активы стоит рассмотреть? (27.02.2026 22:32)
- vivo X300 FE ОБЗОР: скоростная зарядка, беспроводная зарядка, плавный интерфейс
- Xiaomi Poco M7 ОБЗОР: плавный интерфейс, удобный сенсор отпечатков, большой аккумулятор
2026-03-05 12:38