Что видит и понимает искусственный интеллект: контекст восприятия объектов

Автор: Денис Аветисян

Новое исследование показывает, как современные модели, объединяющие зрение и язык, определяют возможности использования объектов в зависимости от окружающего контекста.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Работа демонстрирует контекстно-зависимые вычисления аффордансов в моделях «зрение-язык», указывая на преимущества «семантического подхода» в пространственном познании.

Несмотря на успехи современных моделей обработки изображений и языка, вопрос о том, как эти модели формируют понимание возможностей взаимодействия с окружающим миром, остается открытым. В работе ‘Context-Dependent Affordance Computation in Vision-Language Models’ исследуется явление контекстной зависимости вычисления аффордансов — потенциальных способов использования объектов — в современных мультимодальных системах. Полученные результаты демонстрируют значительный сдвиг в понимании аффордансов в зависимости от контекста, причем изменения в лексическом описании сцены происходят в большей степени, чем изменения в семантическом представлении. Может ли это указывать на необходимость разработки новых подходов к моделированию пространственного познания, основанных на динамической, контекстно-зависимой онтологии, а не на статичном представлении мира?

Восприятие Действия: Основа Вычисления Аффордансов

Традиционные системы компьютерного зрения зачастую концентрируются на идентификации объектов, то есть на определении “что это”, в то время как понимание возможностей взаимодействия с окружающей средой, или “что с этим можно сделать”, остается за пределами их компетенции. Такой подход предполагает, что после распознавания объекта необходимо применить дополнительные алгоритмы для определения возможных действий, что усложняет процесс и замедляет реакцию. Вместо этого, фокус на вычислении аффордансов — потенциальных возможностях, которые среда предлагает агенту для действия — позволяет напрямую оценивать пригодность объектов для конкретных задач, что существенно повышает эффективность и адаптивность интеллектуальных систем. Данный подход имитирует принципы восприятия в живых организмах, где оценка возможностей действия происходит одновременно с распознаванием объекта.

Экологическая психология предлагает фундаментальный подход к пониманию восприятия, утверждая, что оно неразрывно связано с потенциальными действиями, которые среда предлагает агенту. В отличие от традиционных представлений, где восприятие рассматривается как пассивный процесс регистрации сенсорной информации, данная теория подчеркивает, что восприятие активно формируется возможностями для действия. Восприятие, согласно этому подходу, — это не просто «видение» объекта, а непосредственное улавливание его “пригодности” для конкретных действий — так называемых “аффордансов”. Например, человек не просто видит стул, а неявно воспринимает его как возможность для сидения, опирания или даже использования в качестве препятствия. Таким образом, экологическая психология рассматривает восприятие не как процесс построения ментальных репрезентаций мира, а как прямой способ определения возможностей для взаимодействия с ним, что является ключевым для адаптивного и целесообразного поведения.

Понимание аффордансов — возможностей, которые окружающая среда предоставляет для действий — является основополагающим для проявления разумного поведения и пространственного мышления. Исследования показывают, что способность воспринимать не просто объекты, а именно потенциальные действия с ними — возможность схватить, толкнуть, обойти — критически важна для успешного взаимодействия с миром. Этот подход, берущий начало в экологической психологии, предполагает, что восприятие и действие неразрывно связаны: организм воспринимает среду не как набор пассивных объектов, а как поле возможностей для действий, определяемых его собственными способностями и потребностями. Таким образом, аффордансы формируют основу для планирования действий, решения проблем и адаптации к изменяющимся условиям, представляя собой ключевой элемент для создания действительно интеллектуальных систем и роботов.

От Геометрии к Функции: Семантическое Первичное Понимание Сцены

Предлагаемая архитектура “Семантической-Первичной Обработки” (Semantic-First Processing) предполагает, что интерпретация функционального назначения объектов (их «аффордансы») предшествует и структурирует построение их геометрического представления. Это означает, что система сначала определяет, как объект может быть использован, а затем уже определяет его форму и размеры. В отличие от традиционных подходов, где геометрическое разложение сцены является первым шагом, наша архитектура формирует геометрическую модель на основе предварительно определенных функциональных возможностей объектов, что позволяет более эффективно и целенаправленно обрабатывать пространственную информацию.

Традиционные подходы к пониманию сцен обычно начинаются с геометрической декомпозиции — разделения изображения на базовые примитивы, такие как плоскости, углы и линии. После этого происходит анализ этих примитивов для определения объектов и их свойств. Однако, такой подход часто приводит к избыточному анализу геометрических данных, поскольку не учитывает, как эти данные могут быть использованы для взаимодействия с окружающей средой. В результате, процесс распознавания объектов и понимания сцен может быть неэффективным и требовать значительных вычислительных ресурсов, поскольку анализ происходит без предварительного определения функциональной значимости обнаруженных элементов.

Приоритезация функциональной интерпретации пространственных данных направлена на создание более эффективной и биологически правдоподобной модели пространственного мышления. В отличие от традиционных подходов, которые сначала выполняют геометрическую декомпозицию сцены, а затем анализируют возможности взаимодействия с полученными примитивами, наша архитектура “Semantic-First Processing” изначально оценивает функциональное назначение объектов и их потенциальные действия. Это позволяет сократить объем необходимых вычислений, поскольку геометрическое представление формируется уже структурировано функциональными требованиями. Такой подход соответствует принципам работы зрительной коры головного мозга, где обработка информации ориентирована на определение возможных действий и целей, а не только на распознавание форм и размеров объектов.

Визуально-Языковые Модели как Когнитивные Прокси: Вычислительный Подход

Визуально-языковые модели (ВЯМ) представляют собой ценную платформу для изучения вычисления доступных действий, позволяя исследовать, как эти модели “воспринимают” возможности взаимодействия с окружающей средой. ВЯМ, обученные на больших объемах данных, демонстрируют способность сопоставлять визуальные сцены с соответствующими языковыми описаниями действий, которые могут быть в них выполнены. Это позволяет использовать ВЯМ в качестве прокси для изучения когнитивных процессов, связанных с восприятием и пониманием потенциальных действий, доступных агенту в конкретной среде. Анализ внутренних представлений и выходных данных ВЯМ позволяет получить представление о том, как модели кодируют и используют информацию о доступных действиях, а также о факторах, влияющих на их выбор.

Для обучения и оценки способности моделей «зрение-язык» (VLM) к выявлению и пониманию аффордансов используется датасет COCO. COCO предоставляет обширный набор изображений, аннотированных объектами и их взаимосвязями, что позволяет VLM изучать визуальные признаки, связанные с потенциальными действиями. Изображения из COCO служат основой для создания обучающих и тестовых выборок, позволяя количественно оценить способность моделей к предсказанию аффордансов — то есть, возможностей взаимодействия с объектами и средой, исходя из визуальной информации. Разнообразие сцен и объектов в COCO обеспечивает широкую область охвата и позволяет оценить обобщающую способность VLM в различных контекстах.

Результаты исследований демонстрируют значительное изменение восприятия возможностей взаимодействия с объектами (affordance drift) у Vision-Language Models (VLMs) в зависимости от контекста агента. Анализ показал, что более 90% функциональной онтологии сцены, определяющей потенциальные действия, изменяется при варьировании характеристик или роли агента, взаимодействующего с этой сценой. Это указывает на то, что VLM не просто идентифицируют объекты, но и динамически адаптируют свое понимание доступных действий на основе предполагаемого пользователя или контекста взаимодействия, что свидетельствует о чувствительности модели к семантическим нюансам сцены.

Выявление Скрытой Структуры: Онтологии «По Запросу» и Пространственное Рассуждение

Для выявления скрытой структуры и интерпретируемых факторов в представлениях доступных действий, полученных визуально-языковыми моделями (VLMs), был применен метод разложения Такера. Этот подход позволил декомпозировать сложные данные, выделив наиболее значимые компоненты, определяющие способность модели понимать и взаимодействовать с окружающей средой. Разложение Такера не просто упрощает представления, но и раскрывает внутренние закономерности, позволяя анализировать, как модель формирует понимание доступных действий на основе визуальной информации. Полученные факторы, представляющие собой компактное описание ключевых аспектов доступных действий, могут быть использованы для дальнейшего изучения и улучшения способности модели к пространственному рассуждению и решению задач.

Исследование демонстрирует возможность формирования пространственного представления не как заранее заданной структуры, а как динамически конструируемой “онтологии по требованию”. Вместо хранения фиксированного набора пространственных отношений, модель формирует их непосредственно в момент получения запроса, опираясь на специфические характеристики задачи и доступные “аффордансы” — возможности взаимодействия с окружающим миром. Это позволяет избежать избыточности и неэффективности, присущих традиционным подходам, и обеспечивает более гибкую и адаптивную обработку пространственной информации, поскольку акцент делается на актуальных для текущего контекста свойствах объектов и их взаимосвязях.

Анализ с использованием декомпозиции Такера выявил, что всего три латентные переменные объясняют 46.6% дисперсии в представлениях, сформированных моделью. Это указывает на то, что, несмотря на сложность задачи, лежащая в основе структура этих представлений удивительно компактна и осмыслена. Более того, отношение дисперсии между контекстами, различающимися по заданному признаку («cross-prime») и контекстами, где этот признак сохраняется («within-prime»), оказалось более чем в три раза больше единицы. Это свидетельствует о том, что влияние контекста на выходные данные модели значительно превосходит случайный шум, что подтверждает надежность и стабильность полученных результатов и позволяет говорить о способности модели к обобщению.

Исследование демонстрирует, что современные языковые модели, оперирующие визуальной информацией, склонны к контекстуальной зависимости при вычислении аффордансов. То есть, прежде чем приступить к геометрическому разложению сцены, модель пытается понять что перед ней, а не просто где это находится. Как метко заметил Давид Гильберт: «В математике нет трамплина; чтобы достичь новых высот, нужно сначала копать». Здесь аналогия прослеживается явная: прежде чем строить сложные модели пространственного мышления, необходимо глубоко понимать функциональное назначение объектов. Кажется, что концепция ‘семантической обработки’ перед геометрическим анализом, предложенная в работе, лишь подтверждает эту давнюю истину — сначала смысл, потом форма. Иначе говоря, всё это лишь элегантные теории, которым суждено стать техдолгом, если не учитывать практическую применимость и контекст.

Что дальше?

Исследование контекстно-зависимого вычисления «аффордансов» в моделях «зрение-язык» закономерно подводит к вопросу: а не повторяем ли мы старые ошибки, упаковывая их в новые архитектуры? В конечном счете, переход к «семантическому первому» подходу — это всего лишь перестановка мест слагаемых. Пока «продакшен» не столкнется с реальным миром, где объекты не всегда соответствуют идеальным семантическим представлениям, эта элегантная теория останется лишь теорией. Скорее всего, обнаружится, что геометрическая декомпозиция всё равно необходима, просто с более хитрым управлением сложностью.

Очевидная проблема — обобщение. Модель, демонстрирующая понимание «аффордансов» в контролируемой среде, неизбежно столкнется с непредсказуемостью реальных данных. Разве не всегда так? «Just-In-Time Ontology» звучит красиво, но что произойдет, когда модель встретит объект, который не укладывается ни в одну из её предустановленных категорий? Появится новая категория, конечно. И с ней — новые баги.

В конечном счете, не стоит забывать, что каждая «революционная» технология — это всего лишь отложенный технический долг. Будущие исследования, вероятно, будут сосредоточены на создании более устойчивых и адаптивных моделей, способных справляться с неопределенностью и шумом. И, конечно, на поиске способов автоматического исправления тех самых багов, которые неизбежно появятся.

Оригинал статьи: https://arxiv.org/pdf/2603.04419.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-09 02:27