Видео будущего: Управление камерой и память в генеративных моделях

Автор: Денис Аветисян

Новый подход позволяет создавать более реалистичные и последовательные видео, объединяя точное управление камерой и долгосрочную память.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Предложенный метод UCM позволяет создавать последовательные, долгосрочные виртуальные миры, контролируемые камерой, используя заданную траекторию и текстовое описание, при этом достигается согласованность во времени за счет применения позиционного кодирования с учетом временных характеристик.

Исследователи представили UCM — фреймворк, использующий временное искажение позиционного кодирования и двухпоточный диффузионный трансформатор для управления камерой и поддержания согласованности в генерации видео.

Воссоздание реалистичных и интерактивных виртуальных миров требует одновременного обеспечения как долгосрочной согласованности контента, так и точного управления камерой. В данной работе представлена новая система ‘UCM: Unifying Camera Control and Memory with Time-aware Positional Encoding Warping for World Models’, объединяющая управление памятью и камерой посредством механизма временного искажения позиционного кодирования. Предложенный подход, использующий эффективный двухпоточный диффузионный трансформер, позволяет добиться значительного улучшения в поддержании согласованности сцен и точности управления камерой при генерации видео. Сможет ли UCM стать основой для создания действительно интерактивных и правдоподобных виртуальных сред будущего?

Погоня за Когерентностью: Проблема Виртуальных Миров

Для создания реалистичных и последовательных видеороликов недостаточно просто генерировать отдельные кадры; необходим полноценный процесс понимания и симуляции трехмерного мира. Это подразумевает не только визуальное представление объектов, но и моделирование их физических свойств, взаимодействия между собой и с окружающей средой. Такой подход позволяет добиться не просто правдоподобной картинки, но и логичной, последовательной эволюции событий в кадре, избегая распространенных артефактов и несоответствий, которые часто встречаются в традиционных методах генерации видео. По сути, речь идет о создании виртуальной реальности, в которой объекты и персонажи подчиняются определенным законам, а камера является лишь наблюдателем в этом смоделированном пространстве.

Традиционные методы генерации видео часто сталкиваются с проблемой поддержания пространственной и временной согласованности в длительных последовательностях. Это проявляется в заметных несоответствиях, таких как внезапное изменение положения объектов, нереалистичные траектории движения или нарушение логики сцены. Неспособность учитывать взаимосвязь между кадрами приводит к визуальным артефактам, которые разрушают иллюзию реалистичности и вызывают ощущение неестественности происходящего. В результате, даже при высоком качестве отдельных кадров, длительные видеоролики, созданные подобным образом, могут казаться фрагментированными и неубедительными, лишая зрителя полного погружения в происходящее.

Для создания достоверных и продолжительных видеопоследовательностей необходимо разработать систему, объединяющую управление виртуальной камерой и долгосрочную память. Такая система позволяет не просто генерировать отдельные кадры, но и поддерживать согласованность всего трехмерного мира на протяжении длительного времени. Эффективное взаимодействие между камерой, определяющей точку обзора, и памятью, хранящей информацию о расположении объектов, их свойствах и изменениях, критически важно для предотвращения визуальных несоответствий и создания убедительной иллюзии реальности. Представляется, что именно интеграция этих двух ключевых компонентов является необходимым условием для достижения подлинного моделирования мира в видеотехнологиях.

Предложенный метод UCM позволяет генерировать согласованные во времени видеоролики, сохраняя визуальную целостность сцены при изменении угла обзора.

UCM: От Видео к Моделированию Мира

UCM представляет собой новую структуру, которая расширяет возможности существующих моделей генерации видео, превращая их в полноценные модели мира. В отличие от традиционных подходов, ориентированных исключительно на создание отдельных кадров, UCM обеспечивает последовательное моделирование и генерацию видео, учитывая временные зависимости и пространственную согласованность. Это достигается за счет интеграции компонентов, позволяющих моделировать динамику сцены и предсказывать будущие состояния, что позволяет генерировать более реалистичные и связные видеопоследовательности, выходящие за рамки простого создания визуальных эффектов и приближающиеся к моделированию правдоподобного мира.

В основе UCM лежит архитектура Diffusion Transformer (DiT), используемая для представления и генерации видеопоследовательностей. DiT, как и другие трансформеры, оперирует последовательностями токенов, однако в контексте UCM эти токены представляют собой дискретизированные видеокадры. DiT обеспечивает эффективное моделирование долгосрочных зависимостей во времени, что критически важно для генерации когерентных и реалистичных видео. Использование диффузионного процесса в сочетании с трансформерной архитектурой позволяет UCM генерировать высококачественные видеоданные, начиная со случайного шума и постепенно уточняя его до желаемого результата. Таким образом, DiT выступает в качестве основного механизма для кодирования и декодирования видеоинформации в рамках UCM.

Ключевым элементом функциональности UCM является механизм Time-Aware Positional Encoding Warping, обеспечивающий установление корреляции между пространственными и временными координатами для обеспечения согласованной генерации видео. Данный механизм позволяет модели учитывать временную последовательность кадров и их взаимосвязь, что критически важно для создания правдоподобных и когерентных видеопоследовательностей. В основе работы лежит модификация позиционного кодирования, учитывающая временные зависимости, что позволяет эффективно отображать и генерировать видео, сохраняя последовательность и взаимосвязь между кадрами. Это достигается путем деформации позиционных кодов на основе временной информации, обеспечивая тем самым правильное отображение объектов и их движений во времени.

Предложенная UCM кодирует исторические кадры и траекторию камеры для последовательного шумоподавления и генерации высококачественного, согласованного с траекторией видео, используя временные позиционные кодировки и двухпоточную архитектуру трансформера.

Кодирование Пространства и Времени для Когерентности

Метод UCM использует позиционное кодирование (PE) для наделения генерируемых токенов информацией о пространственном расположении, что является критически важным для поддержания согласованности трехмерной сцены. Позиционное кодирование добавляет к каждому токену вектор, представляющий его позицию в трехмерном пространстве. Это позволяет модели учитывать взаимосвязь между объектами и их расположение относительно друг друга при генерации новых элементов сцены. Без позиционного кодирования модель не имела бы возможности различать объекты, находящиеся в разных местах, что привело бы к несогласованным и нереалистичным результатам. Эффективность PE проявляется в способности модели сохранять согласованность сцены при генерации новых точек зрения и объектов, что подтверждается снижением метрик RotErr и TransErr по сравнению с альтернативными подходами.

Для повышения реалистичности и согласованности генерируемых сцен, UCM использует методы 3D-реконструкции в сочетании с вложениями Плюккера для точного кодирования позы камеры. 3D-реконструкция позволяет воссоздать геометрию сцены, в то время как вложения Плюккера, представляющие собой шестимерные векторы, кодируют информацию об ориентации и положении камеры в пространстве. Такой подход позволяет UCM точно определять взаимосвязь между различными элементами сцены и обеспечивать их согласованное отображение при генерации новых кадров, что критически важно для создания убедительных и правдоподобных 3D-миров. Использование вложений Плюккера позволяет компактно и эффективно представлять позу камеры, что оптимизирует вычислительные ресурсы и повышает производительность системы.

Для улучшения согласованности создаваемой 3D-модели, UCM использует рендеринг облаков точек для курирования данных, имитируя повторные посещения сцены с различных точек обзора. Этот процесс позволяет генерировать более реалистичные и когерентные сцены. Экспериментальные результаты показывают, что UCM превосходит существующие методы, демонстрируя более низкое расстояние SO3 для вращения ( $RotErr$ ) и L2-расстояние для трансляции ( $TransErr$ ), что подтверждает эффективность подхода в поддержании пространственной согласованности.

Для симуляции повторного просмотра одной и той же сцены в монокулярных видео используется рендеринг облака точек с произвольно изменяемыми точками зрения.

Эффективность Через Архитектурные Инновации

В основе UCM лежит архитектура Dual-Stream Diffusion Transformer, разработанная для моделирования условной генерации с минимальными вычислительными затратами. Данная архитектура использует два параллельных потока обработки данных, что позволяет эффективно разделять и обрабатывать различные аспекты генерируемого контента. Трансформерная составляющая обеспечивает моделирование долгосрочных зависимостей в данных, необходимые для создания связных и когерентных видео. Ключевым преимуществом является оптимизация вычислительной нагрузки, достигаемая благодаря специфической структуре архитектуры, что позволяет генерировать длинные видеоролики с высоким качеством при меньшем потреблении ресурсов по сравнению с традиционными методами. Это делает UCM особенно привлекательным для приложений, требующих генерации видео в реальном времени или на устройствах с ограниченной вычислительной мощностью.

В основе архитектуры UCM лежит механизм блочного разреженного внимания, который существенно снижает вычислительные затраты при генерации видео, не жертвуя при этом качеством изображения. Вместо обработки каждого пикселя в каждом кадре, данный подход концентрируется на обработке лишь определенных, наиболее значимых блоков изображения. Это достигается за счет разбиения входных данных на блоки и выборочного применения внимания между этими блоками, что позволяет значительно уменьшить объем необходимых вычислений. По сути, система концентрируется на наиболее важных частях изображения, игнорируя менее значимые детали, что обеспечивает высокую скорость генерации без потери визуальной когерентности и реалистичности. Такая оптимизация позволяет создавать длинные, связные видеоролики с минимальными вычислительными ресурсами, достигая лучших результатов по показателям Fréchet Inception Distance (FID) и Fréchet Video Distance (FVD) по сравнению с другими существующими методами.

Внедрение инновационной архитектуры позволило UCM добиться беспрецедентной эффективности при создании длинных, связных видеороликов. Данная система демонстрирует лучшие в своем классе показатели, превосходя существующие методы по ключевым метрикам качества — Fréchet Inception Distance (FID) и Fréchet Video Distance (FVD). Более низкие значения этих метрик свидетельствуют о повышенной реалистичности и согласованности генерируемого видеоконтента, что делает UCM перспективным инструментом для широкого спектра приложений, требующих высококачественной и эффективной генерации видео.

Блок UCM DiT реализует разреженное внимание, где зашумленные токены взаимодействуют друг с другом и ориентируются на чистые токены с помощью временных искажений, а чистые токены взаимодействуют только внутри одного кадра, что позволяет эффективно управлять камерой и снижать вычислительные затраты.

Наблюдатель отмечает, что эта работа с UCM — еще одна попытка приручить хаос генерации видео. Авторы, конечно, увлеченно рассказывают о точных углах обзора и долгосрочной согласованности, о каких-то там временных кодировках и диффузионных трансформаторах. Но в продакшене, как известно, всегда найдется способ превратить элегантную архитектуру в источник новых, неожиданных ошибок. Как говорил Эндрю Ын: «Иногда лучшее, что можно сделать, — это просто запустить и посмотреть, что сломается». И пусть эта UCM и стремится к 3D-реконструкции, в конечном итоге всё равно придётся разбираться с артефактами и странными текстурами, когда система решит, что небо должно быть зелёным, а кошки — квадратными.

Что дальше?

Представленная работа, безусловно, элегантна в своей попытке примирить контроль над камерой и долговременную память в генерации видео. Однако, если взглянуть трезво, становится ясно: каждое новое поколение «world models» лишь аккумулирует долг в виде вычислительных ресурсов и сложности отладки. В конечном итоге, даже самая «time-aware» позиционная кодировка не спасёт от неизбежной энтропии в долгосрочных последовательностях. Система стабильно генерирует артефакты? Значит, по крайней мере, последовательна.

Будущие исследования, вероятно, будут сосредоточены на ещё более изощрённых способах обхода фундаментальных ограничений. Например, попытки «ускорить» 3D-реконструкцию, игнорируя тот факт, что реальный мир — это хаос, который невозможно идеально смоделировать. Или, что более вероятно, появятся новые фреймворки, обещающие «cloud-native» генерацию видео — то есть, то же самое, но дороже и сложнее в поддержке.

В конечном счёте, вся эта работа — не более чем комментарии для будущих археологов, пытающихся понять, почему мы тратили столько ресурсов на генерацию изображений, которые все равно выглядели немного странно. И да, конечно, всегда можно добавить ещё один уровень абстракции. Но, как известно, чем больше абстракций, тем сложнее понять, что вообще происходит.

Оригинал статьи: https://arxiv.org/pdf/2602.22960.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-01 14:24