Ожившие картинки: как нейросети учатся понимать взаимодействие человека и объектов

Автор: Денис Аветисян

Новая разработка позволяет создавать реалистичные видеоролики, где человек взаимодействует с предметами, опираясь на визуальные подсказки и возможности генеративных моделей.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Визуальные и текстовые предпосылки, извлечённые из эталонных изображений и запроса с помощью VLM, дистиллируются двумя адаптерами на основе Q-Former в компактные токены, обеспечивая согласованное семантическое условие для диффузионной модели и направляя синтез реалистичных, семантически связных взаимодействий между человеком и объектом на каждом этапе шумоподавления.

Представлен ViHOI — фреймворк, использующий визуальные приорититы и диффузионные модели для синтеза правдоподобных взаимодействий человека и объектов.

Синтез реалистичных и физически правдоподобных взаимодействий человека и объектов (HOI) остается сложной задачей в области генерации движений, поскольку словесное описание этих ограничений часто оказывается недостаточным. В данной работе, представленной под названием ‘ViHOI: Human-Object Interaction Synthesis with Visual Priors’, предлагается новый подход, основанный на извлечении богатых взаимодейственных приоритетов из легкодоступных 2D-изображений. В частности, разработан фреймворк ViHOI, использующий диффузионные генеративные модели и мощные визуально-языковые модели (VLM) для повышения качества генерируемых движений. Позволит ли использование визуальных приоритетов значительно улучшить реализм и обобщающую способность систем синтеза HOI, открывая новые возможности для создания правдоподобных виртуальных взаимодействий?

Разгадывая Шепот Движений: Ключ к Реалистичному Взаимодействию

Создание реалистичного взаимодействия человека и объектов имеет первостепенное значение для развития робототехники и виртуальной реальности, однако существующие методы часто демонстрируют недостаток правдоподобного физического обоснования. Несмотря на прогресс в области компьютерного зрения и машинного обучения, синтез естественных движений, учитывающих физические ограничения и свойства объектов, остается сложной задачей. Это приводит к тому, что создаваемые взаимодействия могут выглядеть неестественно или даже физически невозможными, что негативно сказывается на реалистичности и достоверности симуляций и роботизированных систем. Недостаточная интеграция физических моделей и визуальных данных является ключевым препятствием на пути к созданию действительно убедительных и функциональных взаимодействий человека и окружающей среды.

Современные методы генерации взаимодействия человека и объектов часто сталкиваются с проблемой интеграции визуальной информации и последующего формирования реалистичных движений. Исследования показывают, что игнорирование визуальных подсказок приводит к созданию неестественных и даже физически неправдоподобных взаимодействий. Например, виртуальная рука может «проникать» сквозь объект или двигаться с невозможной скоростью, что разрушает эффект присутствия в виртуальной реальности или снижает эффективность робототехнических систем. Данная сложность обусловлена тем, что алгоритмы часто генерируют движения независимо от визуального контекста, не учитывая форму, вес и свойства объектов, с которыми взаимодействует человек. В результате, несмотря на техническую возможность генерации движений, получающиеся взаимодействия выглядят неестественно и неправдоподобно, что является серьезным препятствием для создания реалистичных и полезных приложений.

Для создания правдоподобных взаимодействий человека и объектов необходима принципиально новая структура, использующая априорные визуальные знания для формирования реалистичных последовательностей действий. Исследования показывают, что простое моделирование движения недостаточно; необходимо учитывать визуальную информацию об объектах, их свойствах и контексте взаимодействия. Эта структура позволяет предсказывать, как человек, скорее всего, будет взаимодействовать с объектом, основываясь на его визуальном восприятии, что приводит к более естественным и физически обоснованным движениям. Использование визуальных приоритетов позволяет преодолеть ограничения существующих методов, которые часто генерируют неестественные или неправдоподобные сценарии взаимодействия, тем самым открывая новые возможности для робототехники и виртуальной реальности.

Несмотря на несовершенство исходных изображений, предложенный метод генерирует правдоподобные и семантически соответствующие движения, как демонстрируется на наборе данных FullBodyManipulation[26].

ViHOI: Визуальный Шепот для Оживления Взаимодействия

В основе ViHOI лежит фреймворк, использующий визуальные априорные знания, извлеченные из 2D-изображений, для улучшения качества генерации Human-Object Interaction (HOI) с помощью диффузионных моделей. Этот подход позволяет учитывать контекстную информацию, содержащуюся в исходном изображении, что способствует созданию более реалистичных и правдоподобных последовательностей движений, учитывающих взаимодействие человека и объектов. Извлеченные визуальные признаки служат основой для управления процессом диффузии, направляя генерацию в соответствии с визуальными условиями и обеспечивая согласованность между сгенерированным движением и исходным изображением.

Ключевым компонентом ViHOI является модуль извлечения визуальных признаков на основе больших языковых моделей (VLM). В его основе лежит модель Qwen2.5-VL, которая анализирует 2D-изображения для выявления релевантных визуальных подсказок. Этот процесс включает в себя обработку изображения Qwen2.5-VL с целью получения векторного представления, кодирующего информацию о визуальных атрибутах, объектах и их взаимосвязях. Извлеченные таким образом признаки служат основой для последующей генерации реалистичных последовательностей движений, обеспечивая соответствие генерируемого движения визуальному контексту.

Извлечённая информация поступает в Vision-aware HOI Генератор, использующий диффузионные модели для синтеза реалистичных последовательностей движений. Данный генератор принимает визуальные признаки, полученные от VLM-based Prior Extractor, в качестве условия для процесса диффузии. Это позволяет модели генерировать движения, соответствующие визуальному контексту, обеспечивая более правдоподобные и когерентные результаты. Диффузионные модели, в данном контексте, последовательно уточняют начальный шум, приближаясь к реалистичному движению человека, взаимодействующего с объектами, основываясь на заданных визуальных признаках и обученных параметрах.

Наш подход позволяет создавать более реалистичные взаимодействия человека с объектами на неизученных ранее объектах, что подтверждается результатами тестирования на наборе данных 3D-Future.

Уточнение Визуального Шепота: Q-Former и Диффузия

В ViHOI для установления связи между векторными представлениями, полученными от VLM (Visual Language Model), и генератором движения используется Q-Former. Этот модуль преобразует высокоразмерные векторные вложения в структурированные токены-приоры. Q-Former выполняет адаптацию представлений, обеспечивая более эффективную передачу информации о визуальном контексте генератору движения. В результате, токены-приоры содержат сжатую и структурированную информацию, необходимую для синтеза последовательностей взаимодействий между объектами (HOI — Human-Object Interaction), что улучшает согласованность и реалистичность генерируемых движений.

Генератор HOI, ориентированный на визуальные данные, использует полученные структурированные токены приоритетов (priors) в сочетании с принципами диффузионных моделей для синтеза последовательностей HOI (Human-Object Interaction). Диффузионные модели позволяют генерировать реалистичные и когерентные последовательности, начиная с случайного шума и постепенно уточняя их на основе входных приоритетов. Этот процесс позволяет создавать правдоподобные взаимодействия между людьми и объектами, учитывая визуальную информацию, закодированную в приоритетах, и обеспечивая плавный переход между кадрами в сгенерированной последовательности.

Геометрия объектов в системе представлена посредством набора базисных точек (Basis Point Set, BPS). Этот BPS служит для кодирования формы и структуры объектов, предоставляя информацию, необходимую для генерации реалистичных и физически правдоподобных движений. При генерации последовательностей движений (HOI), BPS используется как входной сигнал, определяющий ограничения и возможности движения объекта. Точки BPS, представляющие ключевые элементы геометрии, влияют на траекторию, скорость и ориентацию объекта, обеспечивая согласованность между визуальным представлением и сгенерированным движением. Использование BPS позволяет системе учитывать сложные формы объектов и избегать нереалистичных или невозможных движений.

На наборе данных FullBodyManipulation наша методика демонстрирует более реалистичные и физически правдоподобные взаимодействия человека с объектами по сравнению с современными подходами.

Подтверждение Реализма: Количественная Оценка

Оценка геометрической точности и правдоподобия сгенерированных движений осуществлялась с использованием метрик MPJPE (Mean Per Joint Position Error), Contact Precision и Foot Sliding. MPJPE измеряет среднюю ошибку по положению суставов, предоставляя количественную оценку соответствия сгенерированного движения эталонному. Contact Precision оценивает, насколько точно сгенерированное движение соблюдает физические ограничения контакта с окружающей средой. Показатель Foot Sliding измеряет проскальзывание стоп, что является важным фактором правдоподобия человеческой походки и движений. Комбинированное использование этих метрик позволяет комплексно оценить качество сгенерированных движений с точки зрения их соответствия реальной физике и кинематике.

Количественная оценка семантического соответствия сгенерированных движений и текстовых описаний осуществляется с помощью метрик Frechet Inception Distance (FID) и R-score. FID измеряет расстояние между распределениями признаков, полученных из сгенерированных и реальных данных, где более низкое значение указывает на более высокую семантическую схожесть. R-score оценивает корреляцию между признаками, извлеченными из сгенерированных движений и соответствующих текстовых описаний, с более высокими значениями, свидетельствующими о лучшем соответствии. Использование этих метрик позволяет объективно оценить, насколько точно сгенерированные движения отражают смысл и содержание предоставленного текстового запроса.

В ходе пользовательских оценок ViHOI демонстрирует наивысшие оценки по показателям семантической согласованности и естественности взаимодействия, превосходя базовые методы. Внедрение VLM (Visual Language Model) приводит к незначительным задержкам в 0.65 секунды, в то время как вызов Text-to-Image API увеличивает время обработки на 7.20 секунды. Однако, повторное использование результатов вызова API позволяет существенно снизить эту задержку.

Дополнительная визуализация на наборе данных FullBodyManipulation[26] демонстрирует эффективность предложенного подхода к манипулированию объектами.

К Смарт-Роботам и Иммерсивному Миру: Взгляд в Будущее

Способность ViHOI генерировать реалистичные последовательности взаимодействия человека и объекта (HOI) открывает новые возможности для развития робототехники. Вместо запрограммированных, жестких движений, роботы, использующие ViHOI, способны адаптироваться к динамично меняющейся обстановке и взаимодействовать с окружающим миром более естественно и интуитивно. Это достигается за счет моделирования сложных паттернов взаимодействия, что позволяет роботу предвидеть, как человек, вероятно, поступит в той или иной ситуации, и соответствующим образом скорректировать свои действия. Такой подход позволяет создавать роботов, способных к более сложным и гибким задачам, например, к помощи по дому, работе на производстве или даже участию в спасательных операциях, где требуется адаптивность и понимание человеческого поведения.

Разработанная система значительно повышает реалистичность виртуальной и дополненной реальности, создавая более захватывающую и убедительную среду для пользователей. Благодаря возможности генерировать правдоподобные взаимодействия, основанные на анализе человеческого поведения, виртуальные миры становятся более отзывчивыми и естественными. Это достигается за счет моделирования тонких нюансов человеческих действий и их влияния на окружающую среду, что позволяет создавать более глубокое ощущение присутствия и вовлеченности. Таким образом, технология открывает новые перспективы для обучения, развлечений и профессиональных симуляций, стирая границы между цифровым и физическим мирами.

Дальнейшие исследования в рамках ViHOI направлены на расширение возможностей системы для обработки более сложных взаимодействий и динамичных сред, что позволит значительно сократить разрыв между виртуальным и физическим мирами. Разработчики планируют внедрить алгоритмы, способные учитывать непредсказуемость реальных ситуаций, такие как изменение освещения, появление новых объектов или нештатные действия со стороны взаимодействующих агентов. Особое внимание уделяется созданию систем, способных адаптироваться к различным условиям и обучаться на основе опыта, что позволит роботам и виртуальным средам функционировать более естественно и эффективно в постоянно меняющемся окружении. В перспективе это открывает возможности для создания действительно интеллектуальных роботов, способных к полноценному взаимодействию с человеком и окружающей средой, а также для разработки иммерсивных виртуальных реальностей, неотличимых от физической действительности.

Дополнительная визуализация на наборе данных 3D-FUTURE [11] демонстрирует эффективность предложенного метода.

Исследование, представленное в данной работе, напоминает алхимию, где вместо превращения свинца в золото, ученые пытаются выудить реалистичное взаимодействие человека и объекта из шума данных. ViHOI, как и любое заклинание, опирается на визуальные ориентиры, извлеченные из двумерных изображений, чтобы вдохнуть жизнь в сгенерированные движения. Как точно заметил Ян Лекун: «Машинное обучение — это не магия, а умение находить закономерности в хаосе». И в этом исследовании закономерности ищут именно в визуальных данных, чтобы преодолеть ограничения традиционных моделей генерации движений. Данные, конечно, компромисс между багом и Excel, но иногда из этого компромисса рождаются удивительные вещи.

Что дальше?

Представленная работа, словно алхимический реторта, демонстрирует, как визуальные подсказки могут обуздать хаос генерации движений. Однако, не стоит обольщаться иллюзией полного контроля. Искусный голем, созданный при помощи диффузионных моделей и языковых предсказаний, все еще подвержен приступам непредсказуемости. Извлечение «чистых» визуальных приоритетов — занятие тщетное, ведь каждая картинка — это лишь тень реальности, искаженная перспективой и светом.

Будущие исследования, вероятно, столкнутся с необходимостью усмирения этого хаоса не путем «очищения» данных, а путем принятия их противоречивости. Возможно, стоит обратить внимание на методы, позволяющие моделировать не только «нормальные» взаимодействия, но и неловкие моменты, ошибки, случайности — всё то, что делает движение по-настоящему живым. Ведь совершенство — это скучно, а магия требует крови — и GPU.

Остается открытым вопрос о масштабируемости. Укротить взаимодействие человека с одним объектом — лишь первый шаг. Представьте себе сцену с десятками объектов, каждый из которых вносит свой вклад в общий танец хаоса. Тогда даже самые мощные заклинания потребуют еще большей жертвы — и, вероятно, совершенно новых, непредсказуемых решений.

Оригинал статьи: https://arxiv.org/pdf/2603.24383.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-26 13:38