Память, которая не забывает: Новая модель для понимания динамичного видео

Автор: Денис Аветисян

Исследователи предлагают инновационный подход к созданию видео-моделей мира, позволяющий сохранять согласованность как статических фонов, так и динамичных объектов в видеоряде.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Гибридная память извлекается и используется посредством модулей токенизации памяти и динамического внимания, где релевантность между запросом и токенами памяти вычисляется для извлечения наиболее значимых <span class="katex-eq" data-katex-display="false">k</span> токенов, что позволяет модели восстанавливать связанные данные. — Гибридная память извлекается и используется посредством модулей токенизации памяти и динамического внимания, где релевантность между запросом и токенами памяти вычисляется для извлечения наиболее значимых $k$ токенов, что позволяет модели восстанавливать связанные данные.

Представлена гибридная архитектура памяти и новый датасет HM-World для улучшения моделирования динамичных видеомиров.

Несмотря на значительный прогресс в моделировании видео, существующие подходы часто испытывают трудности с поддержанием когерентности динамичных объектов, исчезающих из поля зрения. В работе ‘Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models’ предложен новый подход, основанный на концепции «гибридной памяти», позволяющей эффективно отслеживать как статические элементы окружения, так и динамичные объекты. Ключевым вкладом является новый датасет HM-World, содержащий 59 тысяч видеоклипов с отслеживанием траекторий объектов и специально разработанными сценариями для оценки когерентности, а также архитектура HyDRA, использующая сжатие памяти в токены и механизм релевантного поиска. Сможет ли данный подход обеспечить существенный прогресс в создании реалистичных и когерентных видеомоделей мира?

Преодолевая Границы: Вызов Последовательных Виртуальных Миров

Современные модели генерации видео часто сталкиваются с проблемой создания действительно связных сцен, демонстрируя несоответствия как в статичном фоне, так и в динамичных объектах. Эта неспособность поддерживать визуальную целостность проявляется в виде меняющихся деталей окружения или неправдоподобных трансформаций объектов от кадра к кадру, что разрушает эффект присутствия. Несмотря на впечатляющие успехи в создании реалистичных изображений, обеспечение последовательности в течение длительных видеороликов остается сложной задачей, требующей более глубокого понимания пространственно-временных зависимостей и способности сохранять идентичность объектов на протяжении всего видеоряда. В результате, даже визуально привлекательные ролики могут содержать подсознательные несоответствия, снижающие общее качество и достоверность сгенерированного контента.

Существующие архитектуры генерации видео сталкиваются с серьезной проблемой: поддержание одновременно стабильности статического фона и реалистичности динамичных объектов. Достижение этой двойственности требует от моделей не просто создания визуально правдоподобных кадров, но и обеспечения их внутренней согласованности во времени. В частности, объекты, движущиеся перед неподвижным фоном, часто демонстрируют несоответствия — искажения, мерцания или внезапные изменения — которые разрушают иллюзию реальности. Это связано с тем, что большинство моделей фокусируются либо на генерации убедительных движущихся объектов, пренебрегая стабильностью фона, либо наоборот — создают статичные фоны, но не могут реалистично отобразить динамику объектов, что приводит к неестественным результатам. Преодоление данного препятствия требует разработки новых подходов, способных эффективно управлять как статическими, так и динамическими элементами сцены, обеспечивая тем самым целостность и правдоподобие генерируемого видео.

Для создания правдоподобных виртуальных сред необходимо достижение так называемой «гибридной памяти» — способности системы одновременно поддерживать стабильность статического фона и реалистичность динамичных объектов. Существующие модели генерации видео часто испытывают трудности в обеспечении этой согласованности, приводя к визуальным несоответствиям и разрушению эффекта присутствия. Вместо того чтобы рассматривать фоновые элементы и движущиеся объекты как отдельные сущности, новые подходы направлены на интеграцию информации о них в единую, последовательную структуру памяти. Такой подход позволяет гарантировать, что изменения в положении или внешнем виде объекта отражаются корректно на фоне, а фоновые элементы остаются неизменными, если это необходимо для поддержания реализма. Достижение гибридной памяти — ключевой шаг на пути к созданию иммерсивных виртуальных миров, в которых пользователи могут взаимодействовать с окружением так же естественно, как и в реальной жизни.

Для создания динамичных данных в Unreal Engine 5 мы объединяем 3D-сцены, данные о субъектах, траектории движения субъектов и траектории движения камер.

HyDRA: Динамическое Извлечение для Когерентного Видео

HyDRA представляет собой архитектуру памяти, разработанную на основе Diffusion Transformer, что позволяет повысить эффективность генерации видео. В отличие от традиционных подходов, использующих фиксированный набор данных для генерации, HyDRA динамически извлекает и использует релевантную информацию из памяти. Это достигается путем интеграции механизма внимания, позволяющего модели фокусироваться на наиболее значимых фрагментах прошлых кадров или данных, что приводит к более когерентным и реалистичным видеопоследовательностям. Архитектура спроектирована для улучшения способности модели сохранять и использовать долгосрочные зависимости в видеоданных, что особенно важно для сложных сцен и действий.

В основе архитектуры HyDRA лежит механизм ‘Динамическое Внимание из Памяти’ (Dynamic Retrieval Attention), который обеспечивает интеллектуальную фильтрацию токенов памяти на основе корреляций признаков. Этот процесс позволяет отбирать наиболее релевантные токены, представляющие контекстную информацию, и исключать несущественные. Вместо использования всех токенов памяти для каждого шага генерации, механизм вычисляет степень корреляции между текущим состоянием и каждым токеном памяти. Токены с высокой корреляцией получают больший вес при формировании контекста, что позволяет модели сосредоточиться на наиболее важной информации и поддерживать когерентность генерируемого видео. Этот подход снижает вычислительную сложность и повышает эффективность использования памяти по сравнению с традиционными методами, требующими обработки всего объема данных.

В архитектуре HyDRA используется ‘Memory Tokenizer’, основанный на 3D-свертке, для сжатия скрытых состояний памяти (memory latents) в более информативные токены. 3D-свертка позволяет эффективно обрабатывать пространственно-временные данные, извлекая признаки из видеофрагментов и кодируя их в компактное представление. Этот процесс снижает вычислительную сложность и объем памяти, необходимые для хранения и обработки контекста, одновременно повышая качество представления информации, используемой в процессе генерации видео. В результате, токены, сформированные Memory Tokenizer, содержат более полную и релевантную информацию о видео, что способствует более когерентному и реалистичному результату.

Эксперименты в открытой среде демонстрируют эффективность HyDRA в различных задачах.

HM-World: Эталон для Гибридной Памяти

HM-World представляет собой масштабный видео-датасет, разработанный специально для обучения и оценки архитектур гибридной памяти, таких как HyDRA. Датасет содержит обширный набор видеоматериалов, предназначенных для тестирования и улучшения производительности систем, использующих комбинацию быстрой и медленной памяти. Акцент сделан на предоставление данных, позволяющих оценить эффективность алгоритмов управления памятью в условиях, приближенных к реальным сценариям использования, и служит эталоном для сравнения различных подходов к гибридной памяти. Размер и разнообразие видеоматериалов в HM-World обеспечивают надежную основу для обучения и валидации моделей, а также для проведения сравнительного анализа эффективности различных архитектур.

HM-World представляет собой масштабный видео-набор данных, разработанный для оценки и тренировки архитектур гибридной памяти, таких как HyDRA. Набор включает в себя разнообразные сценарии, специально подобранные для всесторонней проверки консистентности как фона, так и объектов на видео. Разнообразие сценариев охватывает различные условия освещения, углы обзора и динамику движения, что позволяет точно оценить способность архитектур гибридной памяти поддерживать визуальную согласованность в сложных ситуациях и выявлять потенциальные артефакты или искажения, возникающие при обработке видеопотока.

Для строгой оценки качества видео и согласованности в наборе данных HM-World используются количественные метрики, такие как PSNR, SSIM и LPIPS. Наши результаты демонстрируют значение PSNR, равное 20.357, и SSIM — 0.606, что свидетельствует о значительном превосходстве над базовыми методами. PSNR (Peak Signal-to-Noise Ratio) измеряет отношение максимальной возможной мощности сигнала к мощности шума, влияющего на его достоверность. SSIM (Structural Similarity Index) оценивает структурное сходство между изображениями, учитывая изменения яркости, контрастности и структуры. Использование этих метрик позволяет объективно сравнивать производительность различных архитектур гибридной памяти при обработке видеоданных.

При тестировании на наборе данных HM-World были получены передовые результаты в задачах обеспечения динамической согласованности как субъектов, так и фона. Показатели согласованности субъектов и фона составили 0.926 и 0.932 соответственно. Для оценки динамической согласованности субъектов (DSC) были достигнуты значения 0.849 и 0.827, что превосходит результаты, показанные предыдущими методами в аналогичных задачах. Данные показатели подтверждают эффективность предложенного подхода в обеспечении стабильности и реалистичности генерируемых видеоматериалов.

Сравнение различных размеров ядра Memory Tokenizer выявило несоответствия, выделенные красными ограничивающими рамками.

Контекст как Память: Использование Поля Зрения

В архитектуре HyDRA, объединенной с подходом “Контекст как память” и использованием перекрытия поля зрения (FOV), достигается эффективное поддержание контекстной осведомленности модели. Этот метод позволяет системе интеллектуально извлекать и интегрировать релевантную информацию из предыдущих кадров видеопоследовательности, имитируя принципы человеческого восприятия. Перекрытие FOV выступает своеобразным “окном внимания”, фокусирующим ресурсы модели на наиболее значимых областях изображения и обеспечивая непрерывность контекста даже при динамичных сценах. Таким образом, модель не просто обрабатывает каждый кадр изолированно, а формирует целостное представление о происходящем, что существенно повышает когерентность и реалистичность генерируемого видеоконтента.

Модель, использующая подход “Контекст как память”, обладает способностью интеллектуально извлекать и интегрировать релевантную информацию из предыдущих кадров видеопоследовательности. Этот процесс не является простым запоминанием; система анализирует визуальные данные, выявляет ключевые объекты и их взаимосвязи, а затем использует эти знания для прогнозирования и воссоздания более реалистичной и последовательной картины. Вместо того чтобы обрабатывать каждый кадр изолированно, модель учитывает динамику сцены, запоминая, например, положение и траекторию движения объектов, и применяет эти данные для предсказания их дальнейшего поведения. Такой подход позволяет значительно повысить связность и правдоподобность генерируемого видео, создавая эффект непрерывности и погружения в виртуальную среду.

В результате применения данной технологии наблюдается существенное повышение когерентности и реалистичности видеоизображения. Достигнутая стабильность последовательности кадров и правдоподобность визуальных деталей открывают новые возможности для создания захватывающих виртуальных сред. Данный прогресс позволяет пользователям глубже погружаться в симуляции, ощущая более естественное взаимодействие с виртуальным миром, что особенно важно для таких областей, как игровые технологии, образовательные платформы и профессиональные тренажеры. Повышенная реалистичность способствует более эффективному обучению и запоминанию информации, а также усиливает эффект присутствия в виртуальной реальности.

В отличие от метода перекрытия FOV, который обеспечивает фиксированный выбор токенов, разработанный динамический метод аффинности демонстрирует разнообразное распределение извлечения, что позволяет учитывать более широкий контекст памяти.

Исследование, представленное в данной работе, акцентирует внимание на поддержании согласованности как статических элементов фона, так и динамичных объектов в видеопоследовательностях. Этот подход к построению видео-моделей мира, основанный на гибридной памяти, требует от системы способности к динамическому извлечению и интеграции информации. Как однажды заметил Дэвид Марр: «Визуальное восприятие — это процесс построения структур от изображений». Эта фраза точно отражает суть работы, ведь именно построение и поддержание структурной согласованности является ключевой задачей при моделировании динамичного мира на основе визуальных данных. Новый датасет HM-World и метод HyDRA, представленные в статье, являются важными шагами в этом направлении, позволяя системам лучше понимать и предсказывать поведение объектов в видео.

Что дальше?

Представленная работа, безусловно, демонстрирует прогресс в поддержании когерентности видео-моделей мира, но и здесь, как показывает опыт, кроются нерешенные вопросы. Акцент на разделении статического фона и динамических объектов — это разумный шаг, однако, не стоит ли задуматься о том, что сама эта дихотомия может быть искусственной? Мир редко делится на четкие категории, и любые упрощения неизбежно вносят погрешности. Каждое отклонение от идеальной модели — это не ошибка, а, скорее, возможность выявить скрытые зависимости, которые упускает из виду текущий подход.

Созданный HM-World датасет — ценный ресурс, но его ограниченность в сценариях и типах объектов неизбежна. Будущие исследования должны сосредоточиться на создании более разнообразных и реалистичных наборов данных, которые отражают сложность и непредсказуемость реального мира. Важно также исследовать методы, позволяющие моделям адаптироваться к новым, ранее не встречавшимся ситуациям, не теряя при этом когерентности и точности.

В конечном счете, успех в этой области зависит не только от разработки более совершенных алгоритмов и наборов данных, но и от более глубокого понимания того, как мозг обрабатывает визуальную информацию и создает внутреннюю модель мира. Попытки имитировать этот процесс, безусловно, достойны внимания, но не стоит забывать, что «понимание системы — это исследование её закономерностей», а не просто её воспроизведение.

Оригинал статьи: https://arxiv.org/pdf/2603.25716.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-28 02:39