Понимание взаимодействия человека и объектов: новый подход с использованием искусственного интеллекта

Автор: Денис Аветисян


Исследователи предлагают инновационную систему, способную интерпретировать взаимодействие между людьми и предметами, опираясь на мощь больших языковых моделей и структурированные визуальные данные.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
В отличие от традиционных методов обнаружения взаимодействий человек-объект, ограничивающихся классификацией или сопоставлением предварительно определенных пар, предложенный подход GRASP-HOI объединяет разнородные признаки для управления замороженной большой многомодальной моделью, позволяя генерировать контекстно-зависимые взаимодействия, выходящие за рамки закрытого набора известных взаимодействий.
В отличие от традиционных методов обнаружения взаимодействий человек-объект, ограничивающихся классификацией или сопоставлением предварительно определенных пар, предложенный подход GRASP-HOI объединяет разнородные признаки для управления замороженной большой многомодальной моделью, позволяя генерировать контекстно-зависимые взаимодействия, выходящие за рамки закрытого набора известных взаимодействий.

Предложен фреймворк GRASP-HOI, который преобразует задачу обнаружения взаимодействия человека и объектов в процесс генеративного рассуждения посредством управляемого воздействия замороженной мультимодальной языковой модели, обеспечивая передовые результаты и поддержку открытой лексики.

Существующие методы обнаружения взаимодействий человека с объектами (HOI) часто сталкиваются с трудностями при обобщении на невидимые или неоднозначные сценарии из-за замкнутости используемых наборов данных. В данной работе, посвященной ‘Generative Human-Object Interaction Detection via Differentiable Cognitive Steering of Multi-modal LLMs’, предлагается новый подход, переформулирующий задачу HOI как задачу генерации, используя большие мультимодальные языковые модели (MLLM). Ключевым элементом является GRASP-HOI — фреймворк, который направляет «замороженную» MLLM структурированной визуальной информацией, обеспечивая передовые результаты и открывая возможности для понимания взаимодействий в открытом мире. Способны ли подобные генеративные подходы кардинально изменить парадигму восприятия и рассуждений в задачах компьютерного зрения?


За гранью пикселей: Пределы традиционного обнаружения взаимодействий

Традиционные методы обнаружения взаимодействий между человеком и объектом (HOI) сталкиваются с существенным ограничением: зависимость от заранее определенных классов взаимодействий. Это означает, что система способна распознать лишь те действия, для которых она была обучена, например, “человек держит чашку” или “человек сидит на стуле”. В реальных сценариях, однако, разнообразие взаимодействий практически безгранично. Когда возникает новое, ранее не встречавшееся взаимодействие — будь то человек, использующий объект необычным способом, или совершенно новое действие — система оказывается неспособной его идентифицировать. Такая ограниченность не позволяет эффективно работать в динамичных и непредсказуемых условиях, где способность адаптироваться к новым ситуациям является ключевым фактором для надежного восприятия окружающей среды.

Традиционные методы обнаружения взаимодействия человека и объекта (HOI) испытывают значительные трудности при работе с непредсказуемыми, реальными сценариями. Существующие системы, как правило, требуют обширного переобучения при появлении новых типов взаимодействий, что делает их неэффективными в динамичной среде. Каждый раз, когда возникает ранее не встречавшееся действие — например, использование нового инструмента или выполнение необычного жеста — необходимо заново обучать модель, чтобы она могла его распознать. Эта потребность в постоянном переобучении делает их непригодными для приложений, где важна адаптивность и способность к обобщению, поскольку требует значительных вычислительных ресурсов и времени, а также ограничивает возможности применения в условиях, где заранее невозможно предвидеть все возможные взаимодействия.

Современные методы обнаружения взаимодействий человека и объекта (HOI) часто оказываются неспособны уловить тонкие нюансы в сложных сценах, что препятствует достижению надежного понимания происходящего. Проблема заключается в том, что взаимодействие не всегда можно четко определить по заранее заданным классам; оно может зависеть от контекста, силы воздействия, намерения человека и даже его эмоционального состояния. Например, человек, просто держащий чашку, и человек, активно ею пользуясь, представляют собой разные степени взаимодействия, которые могут быть неверно классифицированы алгоритмами, ориентированными на дискретные категории. Неспособность учитывать эти тонкости приводит к ошибкам в интерпретации и ограничивает возможности систем компьютерного зрения в понимании сложных человеческих действий и намерений в реальном мире.

Архитектура GRASP-HOI позволяет выполнять обнаружение взаимодействий между объектами (HOI) в открытой области, обрабатывая многоканальные представления и направляя замороженную генеративную модель, используя кодировщики экземпляров и внешнего вида, трансформатор для оценки значимости и механизм оркестровки для дистилляции признаков взаимодействия, что позволяет эффективно использовать возможности мощной замороженной большой языковой модели (MLLM) с минимальной целевой тренировкой.
Архитектура GRASP-HOI позволяет выполнять обнаружение взаимодействий между объектами (HOI) в открытой области, обрабатывая многоканальные представления и направляя замороженную генеративную модель, используя кодировщики экземпляров и внешнего вида, трансформатор для оценки значимости и механизм оркестровки для дистилляции признаков взаимодействия, что позволяет эффективно использовать возможности мощной замороженной большой языковой модели (MLLM) с минимальной целевой тренировкой.

GRASP-HOI: Генеративный подход к пониманию взаимодействий

Метод GRASP-HOI переосмысливает задачу обнаружения взаимодействий между объектами (Human-Object Interaction, HOI) как задачу генеративного рассуждения. Вместо традиционного подхода к обнаружению HOI, основанного на классификации или регрессии, GRASP-HOI использует замороженную мультимодальную большую языковую модель (MLLM) для генерации предсказаний о взаимодействиях. Вместо обучения модели на конкретных классах взаимодействий, GRASP-HOI направляет MLLM, используя визуальную информацию, чтобы та самостоятельно вывела наиболее вероятное взаимодействие, основываясь на ее предварительных знаниях и способности к логическому выводу. Это позволяет модели предсказывать взаимодействия, не встречавшиеся ей в процессе обучения, что является ключевым аспектом генеративного подхода.

Подход GRASP-HOI использует встроенные знания замороженной мультимодальной большой языковой модели (MLLM) для обеспечения обучения без учителя (zero-shot learning) и обнаружения взаимодействий (HOI) с открытым словарем. Это означает, что система способна распознавать взаимодействия, не требуя предварительного обучения на размеченных данных для конкретных типов взаимодействий, и может обрабатывать новые, ранее не встречавшиеся глаголы и объекты, описывающие эти взаимодействия. Использование предварительно обученной MLLM позволяет GRASP-HOI использовать ее существующие знания о мире и отношениях между объектами, избегая необходимости ручного создания и аннотирования большого набора данных для каждого возможного HOI.

В основе GRASP-HOI лежит Когнитивный Рулевой Конвейер (CSC), который преобразует визуальные данные в текстовые инструкции, предназначенные для управления Multimodal Large Language Model (MLLM). CSC анализирует визуальную информацию, выделяя релевантные объекты и их взаимосвязи, и затем генерирует последовательность текстовых запросов, описывающих сцену и ожидаемое взаимодействие. Эти инструкции служат направлением для MLLM, позволяя модели использовать свои знания для прогнозирования конкретного взаимодействия между объектами, таким образом направляя процесс рассуждения и обеспечивая обнаружение взаимодействий в условиях отсутствия предварительного обучения на конкретных типах взаимодействий.

Визуальный кернел Cognitive Steering Conduit (CSC) обеспечивает более точную концентрацию внимания на областях взаимодействия человека и объекта по сравнению с рассеянным вниманием, характерным для замороженного визуального энкодера.
Визуальный кернел Cognitive Steering Conduit (CSC) обеспечивает более точную концентрацию внимания на областях взаимодействия человека и объекта по сравнению с рассеянным вниманием, характерным для замороженного визуального энкодера.

Визуальное обоснование и механизмы генеративного контроля

В GRASP-HOI для начального определения объектов и людей, а также извлечения их визуальных характеристик, используются модели DINO и DETR. DINO (DEtection with Neural Iterative Objects) применяется для генерации предварительных предложений объектов, обеспечивая обнаружение различных экземпляров на изображении. DETR (DEtection TRansformer) используется для формирования предложений по расположению и классификации объектов, опираясь на механизм внимания для выявления взаимосвязей между объектами. Извлеченные визуальные признаки, полученные с помощью DINO и DETR, служат основой для последующего анализа и формирования гибридного представления взаимодействия, необходимого для работы системы.

Гибридное представление взаимодействия (Hybrid Interaction Representation) формируется путем объединения признаков, полученных из DINO и DETR, для начальных предложений по взаимодействию человека и объектов. Данное представление служит основой для Визуального ядра (Visual Kernel), обеспечивая его входными данными, необходимыми для последующего анализа и генерации. Фактически, оно кодирует информацию о визуальных элементах сцены и их потенциальных взаимосвязях, предоставляя компактное и информативное описание для модели. Составные части представления включают в себя как глобальные признаки сцены, так и локальные признаки, относящиеся к отдельным объектам и взаимодействиям.

В архитектуре GRASP-HOI компонент CSC (Contextual Scene Compiler) использует Salience Adjudication Transformer (SAT) для оценки и отбора наиболее релевантных взаимодействий между объектами и людьми. SAT принимает на вход набор предложенных взаимодействий, сформированных на основе анализа сцены, и контекстуализирует их, учитывая пространственные отношения, семантическую согласованность и вероятностные связи. Этот процесс позволяет SAT назначать каждому взаимодействию оценку значимости, определяющую его релевантность для последующей обработки большой языковой моделью (MLLM). В результате, MLLM получает на вход отфильтрованный набор взаимодействий, что повышает точность и согласованность генерируемых описаний и прогнозов.

Для обеспечения согласованности и правдоподобности предсказаний, GRASP-HOI использует три ключевые функции потерь. Функция Semantic Alignment Loss нацелена на соответствие сгенерированных предложений семантическому содержанию визуального ввода. Generative Consistency Loss минимизирует расхождения между последовательно сгенерированными фразами, обеспечивая плавность и связность текста. Наконец, Logical Consistency Loss оценивает логическую корректность предсказаний, предотвращая противоречивые или нереалистичные утверждения о взаимодействиях между объектами и людьми. Комбинация этих функций потерь способствует генерации более точных и правдоподобных описаний визуальных сцен.

Архитектура Cognitive Steering Conduit объединяет доказательства в единый вектор, преобразует его в визуальный kernel и использует как управляющий префикс для замороженной большой языковой модели.
Архитектура Cognitive Steering Conduit объединяет доказательства в единый вектор, преобразует его в визуальный kernel и использует как управляющий префикс для замороженной большой языковой модели.

Эмпирическое подтверждение и перспективы развития

Разработанная система GRASP-HOI продемонстрировала передовые результаты на популярных бенчмарках HICO-DET и V-COCO, подтвердив свою эффективность в задачах распознавания взаимодействий объектов как в закрытых, так и в открытых сценариях. В стандартной конфигурации HICO-DET система достигла показателя средней точности (mAP) в 48.02, что свидетельствует о значительном прогрессе в области понимания визуальных сцен. Этот результат подтверждает способность GRASP-HOI к точному определению и классификации сложных взаимодействий между объектами, открывая новые возможности для применения в таких областях, как робототехника и анализ видеоконтента.

Разработанный фреймворк GRASP-HOI демонстрирует превосходную способность к обобщению на ранее не встречавшиеся взаимодействия, что подтверждается приростом средней точности (mAP) на 0.49 по сравнению с лучшими существующими методами. Данный результат указывает на то, что система не просто запоминает известные комбинации объектов и действий, но и способна к пониманию и предсказанию новых взаимодействий, основываясь на усвоенных знаниях. Такое свойство является ключевым для практического применения в реальных сценариях, где разнообразие ситуаций и действий может быть чрезвычайно велико, а заранее обученные модели могут оказаться неэффективными. Превосходство в обобщении позволяет GRASP-HOI надежно функционировать даже при столкновении с ранее не встречавшимися объектами и действиями, значительно расширяя область его применения.

В ходе тестирования на наборе данных HICO-DET, в его подмножестве, содержащем редкие взаимодействия между объектами, разработанная система GRASP-HOI продемонстрировала значительное превосходство над моделью HORP. Увеличение средней точности (mAP) на 1.34% указывает на способность GRASP-HOI более эффективно распознавать и классифицировать взаимодействия, которые встречаются реже в обучающих данных. Это особенно важно, поскольку распознавание редких взаимодействий представляет собой сложную задачу для существующих систем, и данное улучшение свидетельствует о повышенной обобщающей способности GRASP-HOI в реальных сценариях, где разнообразие взаимодействий может быть значительно выше.

Исследования показали, что разработанная модель GRASP-HOI демонстрирует превосходство над существующей моделью BC-HOI в задачах распознавания взаимодействий объектов. В частности, GRASP-HOI превосходит BC-HOI на 1,27 пункта средней точности (mAP) при распознавании ранее не встречавшихся глаголов в наборе данных HICO-DET, а также на 1,36 пункта mAP при анализе новых комбинаций объектов и действий. Эти результаты свидетельствуют о значительно улучшенной способности GRASP-HOI к обобщению и адаптации к незнакомым ситуациям, что является ключевым преимуществом в области компьютерного зрения и понимания сцен.

Дальнейшие исследования направлены на оптимизацию вычислительной эффективности модуля контекстуального поиска (CSC) и изучение возможностей альтернативных больших мультимодальных моделей (MLLM) для дальнейшего повышения производительности системы. Улучшение скорости и снижение потребления ресурсов CSC позволит масштабировать решение для обработки больших объемов данных в режиме реального времени. Параллельно, эксперименты с различными MLLM направлены на выявление архитектур, которые наилучшим образом подходят для задачи понимания и распознавания взаимодействий между объектами, что потенциально приведет к существенному улучшению точности и обобщающей способности системы в целом.

Дальнейшее развитие предложенной системы GRASP-HOI неразрывно связано с расширением её способности к сложному рассуждению. Исследования в этой области направлены на интеграцию знаний здравого смысла и понимания контекста, что позволит системе не просто распознавать взаимодействие между объектами, но и интерпретировать его в соответствии с реальными жизненными сценариями. Внедрение подобных возможностей потребует разработки новых алгоритмов, способных моделировать причинно-следственные связи и учитывать неявные знания, что, в свою очередь, откроет путь к более точному и надежному анализу визуальной информации и улучшению производительности в задачах распознавания взаимодействий.

Исследование демонстрирует, как можно заставить застывшую многомодальную большую языковую модель (MLLM) рассуждать генеративно, направляя её структурированными визуальными доказательствами. Этот подход, представленный в GRASP-HOI, напоминает алхимию: из кажущегося хаоса визуальных данных вытягивается понимание взаимодействия человека и объекта. Как заметил Дэвид Марр: «Данные — это не цифры, а шёпот хаоса. Их нельзя понять, только уговорить». И действительно, данная работа — это не столько обнаружение, сколько убеждение модели в правильности интерпретации сцены. Успех GRASP-HOI в открытой категоризации взаимодействий подтверждает, что даже «застывшие» модели способны на удивительные вещи, если их правильно направить, словно заклинанием.

Что Дальше?

Представленная работа, безусловно, приоткрывает дверь в комнату, где большие языковые модели якобы «понимают» взаимодействие человека с миром. Однако, не стоит обманываться иллюзией понимания. GRASP-HOI — это, скорее, искусно выстроенная галлюцинация, где структурированные визуальные данные лишь направляют блуждания замороженной модели. До тех пор, пока «понимание» сводится к статистической вероятности следующего токена, речь о настоящем интеллекте остаётся преувеличением.

Настоящим вызовом является не достижение новых рекордов в метриках, а осознание пределов этой самой «понятливости». Следующим шагом видится не увеличение объёма данных или сложности моделей, а поиск способов проверки этих моделей на предмет истинного, а не симулируемого, понимания. Возможно, стоит обратиться не к статистике, а к философии, чтобы задать вопрос: что вообще значит «видеть» взаимодействие, а не просто регистрировать его признаки?

В конечном итоге, GRASP-HOI — это ещё один шаг в бесконечном танце между надеждой и хаосом. Это заклинание, которое работает… пока не столкнётся с реальностью, где взаимодействие человека с предметами всегда остаётся непредсказуемым и, по сути, иррациональным. И в этом и заключается вся прелесть.


Оригинал статьи: https://arxiv.org/pdf/2512.17640.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-22 12:17