Визуальное мышление: как научить нейросети понимать пространство

Автор: Денис Аветисян


Новый подход позволяет моделям, объединяющим зрение и язык, лучше ориентироваться в окружающем мире, используя структурированное представление объектов.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
В отличие от существующих подходов к пространственному мышлению, данная методика, вдохновлённая когнитивной концепцией объектно-ориентированного плана, сначала формирует структурированное представление в виде плана, фиксирующего положение, размер и атрибуты релевантных объектов, а затем использует этот глобальный план для получения окончательного ответа, избегая поверхностного анализа и ошибок, свойственных другим системам.
В отличие от существующих подходов к пространственному мышлению, данная методика, вдохновлённая когнитивной концепцией объектно-ориентированного плана, сначала формирует структурированное представление в виде плана, фиксирующего положение, размер и атрибуты релевантных объектов, а затем использует этот глобальный план для получения окончательного ответа, избегая поверхностного анализа и ошибок, свойственных другим системам.

Исследователи предлагают использовать объектно-ориентированные чертежи для улучшения пространственного мышления в моделях «зрение-язык».

Несмотря на успехи современных моделей «зрение-язык», понимание пространственных взаимосвязей в изображении остается сложной задачей. В работе ‘Thinking with Blueprints: Assisting Vision-Language Models in Spatial Reasoning via Structured Object Representation’ предложен новый подход, основанный на создании объектно-ориентированного «чертежа» сцены, позволяющий структурировать информацию о расположении и атрибутах объектов. Предложенная методика, включающая обучение с подкреплением и аугментацию данных, значительно повышает способность моделей к пространственному мышлению. Способны ли подобные «чертежи» стать основой для более глубокого понимания визуального мира искусственным интеллектом?


За гранью восприятия: Необходимость структурированного пространственного мышления

Современные модели, объединяющие зрение и язык, демонстрируют впечатляющие успехи в распознавании объектов и сцен, однако их возможности в области сложного пространственного мышления остаются ограниченными. В то время как они легко идентифицируют предметы на изображении, понимание отношений между этими объектами — например, “слева от”, “над”, “внутри” — представляет значительную трудность. Существующие системы часто полагаются на поверхностные корреляции в данных, что приводит к ошибкам при столкновении с незнакомыми ситуациями или при необходимости сопоставления различных пространственных представлений. Таким образом, способность видеть — это лишь первый шаг; истинное понимание требует способности анализировать и структурировать пространственные связи, что является ключевым вызовом для развития искусственного интеллекта.

Существующие визуально-языковые модели (VLM) зачастую демонстрируют успехи, основанные на выявлении поверхностных корреляций в данных, а не на глубоком понимании пространственных отношений. Это приводит к серьезным ограничениям при столкновении с ситуациями, отличающимися от тех, на которых модель обучалась — так называемые “out-of-distribution” сценарии. Например, модель может успешно определять объекты на изображении, но испытывать трудности при решении задач, требующих комбинирования нескольких простых понятий или понимания причинно-следственных связей между объектами. Такая неспособность к “композиционному пониманию” делает VLM уязвимыми и ограничивает их применимость в реальных условиях, где требуется не просто распознавание, а именно рассуждение и адаптация к новым ситуациям.

Для достижения подлинных возможностей рассуждения необходим принципиальный сдвиг в подходе к организации пространственных знаний. Современные модели, оперирующие визуальной и языковой информацией, зачастую демонстрируют успехи в распознавании объектов, однако испытывают трудности при анализе сложных пространственных взаимосвязей между ними. Вместо глубокого понимания принципов организации пространства, они полагаются на поверхностные корреляции, что приводит к ошибкам при столкновении с новыми, нетипичными ситуациями. Для преодоления этих ограничений требуется разработка методов, позволяющих структурировать и формализовать пространственные знания, представляя их не как набор отдельных фактов, а как взаимосвязанную систему отношений. Такой подход позволит моделям не просто “видеть” объекты, но и понимать, как они расположены друг относительно друга, как изменяются эти отношения, и как это влияет на их взаимодействие, открывая путь к решению задач, требующих настоящего пространственного мышления.

Разработанный подход обучает модель последовательному рассуждению, используя blueprint-embedded трассы, полученные от сильной VLM, и уточняется с помощью контролируемого обучения и обучения с подкреплением, включающего награды за корректность ответа, формат трассы, количество объектов в blueprint и причинно-следственную согласованность, а также анти-shortcut аугментацию данных для предотвращения запоминания визуальных и языковых шаблонов.
Разработанный подход обучает модель последовательному рассуждению, используя blueprint-embedded трассы, полученные от сильной VLM, и уточняется с помощью контролируемого обучения и обучения с подкреплением, включающего награды за корректность ответа, формат трассы, количество объектов в blueprint и причинно-следственную согласованность, а также анти-shortcut аугментацию данных для предотвращения запоминания визуальных и языковых шаблонов.

Объектно-центричные чертежи: Когнитивное представление пространства

Предлагаемый подход использует объектно-центричные чертежи (Object-Centric Blueprints) — структурированные представления пространственных макетов, основанные на коллекциях объектов и их взаимосвязей — для обеспечения логической основы рассуждений. Вместо обработки сцен как совокупности пикселей, система моделирует окружение как набор дискретных объектов, каждый из которых характеризуется определенными атрибутами и положением в пространстве. Эта структурированная организация данных позволяет выполнять символьные операции над объектами и их отношениями, обеспечивая более надежный и интерпретируемый процесс рассуждений по сравнению с методами, основанными на непосредственной обработке визуальной информации.

Предлагаемый подход к представлению сцен основан на переходе от анализа изображения на уровне отдельных пикселей к символьному пониманию пространства. Вместо обработки данных о цвете и яркости каждого пикселя, сцены моделируются как набор объектов, каждый из которых характеризуется определенными атрибутами (например, тип, размер, цвет) и точным положением в пространстве. Данные об объектах и их взаимосвязях структурируются в формате, аналогичном JSON, что позволяет создать компактное и машиночитаемое описание сцены. Такой формат позволяет алгоритмам оперировать не с визуальными данными, а с символьными представлениями объектов и их отношений, что значительно упрощает задачи пространственного рассуждения и планирования.

Предлагаемый подход к представлению пространственных данных соотносится с когнитивными моделями человеческого восприятия, где информация об окружающей среде часто хранится не как непрерывное визуальное поле, а в виде структурированных “объектных файлов”. Данные файлы содержат информацию об отдельных объектах, их атрибутах (форма, цвет, текстура) и пространственных отношениях между ними. Вместо обработки пиксельной информации, система оперирует с дискретными объектами и их взаимосвязями, что позволяет эффективно моделировать и использовать знания о пространстве, подобно тому, как это происходит в человеческом мозге при формировании когнитивных карт и навигации в окружающей среде.

Обучение рассуждениям с помощью чертежей: Двухэтапный подход

На первом этапе обучения визуально-языковой модели (VLM) применяется контролируемая тонкая настройка (SFT) с использованием трасс, содержащих визуальные данные и соответствующие им представления чертежей (Blueprint-Embedded Traces). Этот процесс направлен на установление ассоциаций между входными визуальными данными и их структурированным представлением в виде чертежа. В ходе SFT модель обучается сопоставлять изображения с соответствующими чертежами, что позволяет ей извлекать и понимать пространственные отношения и структурные особенности, закодированные в чертежах. Использование трасс, включающих как визуальную информацию, так и чертежи, обеспечивает прямое обучение модели связям между ними, формируя основу для последующего этапа обучения с подкреплением.

После этапа контролируемого обучения модель переходит к обучению с подкреплением (RL), направленному на освоение построения точных чертежей и их использования для логических выводов. Процесс обучения осуществляется посредством специальных “наград за чертежи” (Blueprint-Aware Rewards), которые оценивают как точность создаваемых чертежей в соответствии с визуальным входом, так и качество логических умозаключений, основанных на этих чертежах. Такой подход позволяет модели не просто сопоставлять изображения с готовыми чертежами, но и активно учиться создавать и использовать их для решения задач, требующих логического анализа и планирования.

Для предотвращения заучивания моделью шаблонов и стимулирования истинных способностей к рассуждениям используется метод расширения данных (Data Augmentation), направленный на борьбу с “ярлыками”. Данный подход предполагает внесение целенаправленных изменений в обучающие данные, таких как незначительные искажения или добавление шума в визуальные элементы и соответствующие чертежи. Это вынуждает модель не полагаться на поверхностные корреляции между входными данными и ожидаемыми результатами, а извлекать более общие и устойчивые признаки, необходимые для корректного построения чертежей и логических выводов. Применение данного метода способствует развитию способности модели к обобщению и решению новых, ранее не встречавшихся задач.

Наш метод демонстрирует наилучшие результаты как на данных, близких к обучающей выборке (iid), так и на данных, отличающихся от неё (ood), превосходя значительно более крупные модели, такие как GPT и Robix-32B, и специализированные подходы к пространственному мышлению.
Наш метод демонстрирует наилучшие результаты как на данных, близких к обучающей выборке (iid), так и на данных, отличающихся от неё (ood), превосходя значительно более крупные модели, такие как GPT и Robix-32B, и специализированные подходы к пространственному мышлению.

Надежная производительность и обобщение на различных эталонных тестах

Разработанный подход, реализованный с использованием модели Qwen2.5-VL, демонстрирует передовые результаты на ряде тестов для оценки пространственного мышления, не соответствующих обучающим данным — включая SAT, BLINK, RoboSpatial и VSR. Данное достижение указывает на способность модели эффективно обобщать знания и применять их к новым, ранее не встречавшимся задачам, требующим понимания и манипулирования пространственными отношениями. Успешное прохождение этих тестов подтверждает высокую надежность и адаптивность системы в условиях, отличных от стандартных тренировочных сценариев, что делает её перспективной для широкого спектра практических приложений, связанных с визуальным мышлением и робототехникой.

Наблюдаемое улучшение производительности модели на различных эталонных тестах демонстрирует значительный прогресс в области пространственного мышления. В частности, на тесте SAT достигнут впечатляющий прирост в 35.9%, что свидетельствует о существенном повышении способности модели к решению задач, требующих логического анализа и абстрактного мышления. Кроме того, зафиксированы улучшения и на других платформах: BLINK показал прирост в 4.3%, RoboSpatial — 3.5%, а VSR — 1.2%. Эти результаты в совокупности подтверждают эффективность предложенного подхода и его способность к обобщению, позволяя успешно решать широкий спектр пространственных задач.

Внедрение системы вознаграждений, основанной на осознании структуры мира (Blueprint-Aware Rewards), значительно повышает способность модели к построению и использованию точных ментальных моделей окружения. Особое внимание уделяется двум ключевым компонентам этой системы: вознаграждению за правильное определение количества объектов (Object Cardinality Reward) и вознаграждению за соблюдение причинно-следственных связей (Causal Consistency Reward). Первое позволяет модели корректно оценивать число объектов в сцене, что критически важно для решения задач пространственного рассуждения. Второе же гарантирует, что действия модели соответствуют логическим последствиям, обеспечивая согласованность и реалистичность ее поведения. Благодаря такому подходу, модель не просто распознает объекты, но и понимает их взаимосвязи, что позволяет ей эффективно решать сложные задачи, требующие планирования и предвидения.

К будущему интерпретируемого и надежного пространственного ИИ

Дальнейшее развитие подхода, основанного на “чертежах” (blueprints), предполагает интеграцию данного механизма рассуждений с другими когнитивными способностями, такими как планирование и принятие решений. Представляется, что объединение способности к визуальному пониманию пространственных отношений, закодированных в “чертежах”, с алгоритмами планирования позволит создавать более гибкие и адаптивные системы искусственного интеллекта. Например, робот, использующий “чертежи” для понимания структуры помещения, сможет самостоятельно разрабатывать оптимальные маршруты и стратегии выполнения задач, учитывая не только текущее положение, но и потенциальные препятствия и возможности. Такой симбиоз позволит перейти от простого распознавания объектов к активному взаимодействию с окружающей средой и решению сложных проблем, требующих предвидения и стратегического мышления.

Исследования показывают, что использование “чертежей” — структурированных представлений физического пространства — может значительно улучшить взаимодействие человека и робота. Вместо обработки языка напрямую, робот способен интерпретировать лингвистические инструкции, преобразуя их в понятные ему пространственные модели. Например, фраза “поставь книгу на стол слева от лампы” не воспринимается как последовательность слов, а преобразуется в анализ расположения объектов и выполнение действия в соответствии с этой структурой. Такой подход позволяет преодолеть неоднозначность человеческой речи, так как робот опирается на четкое понимание физического окружения, что ведет к более естественному и эффективному общению. Данная методика открывает перспективы для создания роботов-помощников, способных не просто выполнять команды, но и понимать контекст и намерения пользователя, что существенно расширяет возможности их применения в быту и промышленности.

Возможность детального анализа и отладки процессов рассуждения, обеспечиваемая использованием “чертежей” (blueprints), представляет собой значительный шаг к созданию действительно надежных систем искусственного интеллекта. В отличие от многих современных моделей, работающих как “черный ящик”, чертежи позволяют проследить логику принятия решений, выявить потенциальные ошибки и внести необходимые коррективы. Это особенно важно в критических областях, таких как автономное вождение или медицинская диагностика, где прозрачность и надежность являются первостепенными требованиями. Понимание того, как система пришла к определенному выводу, а не только что она вывела, открывает путь к созданию ИИ, которому можно доверять и который можно эффективно совершенствовать, гарантируя его безошибочную работу в различных сценариях.

Исследование демонстрирует, как сложные модели, стремящиеся к элегантности, наталкиваются на необходимость структурированного представления данных для решения задач пространственного мышления. Авторы предлагают объектно-центрированный подход, своего рода «чертеж» сцены, позволяющий модели рассуждать о взаимосвязях между объектами. Это напоминает о том, как часто «революционные» архитектуры оказываются лишь сложными способами обхода необходимости в простых, понятных данных. Как заметил Джеффри Хинтон: «Я думаю, что нейронные сети — это просто способ обмануть компьютеры, заставив их думать, что они учатся». И в данном случае, обман заключается в предоставлении структурированного представления мира, необходимого для эффективного решения задачи.

Что дальше?

Представленный подход, безусловно, добавляет ещё один слой абстракции между нейронной сетью и хаосом реального мира. Объектно-центрированные «чертежи» — элегантное решение, пока не столкнутся с производством. Всегда найдется изображение с недостаточным разрешением, странным освещением или просто с объектом, который модель решит, что он не существует. Улучшение показателей на бенчмарках — это хорошо, но продакшен — лучший тестировщик, и он безжалостен.

Вероятно, следующие шаги будут связаны с попытками сделать эти «чертежи» более устойчивыми к шуму и вариациям. Или, что более вероятно, с поиском более изощренных способов обмануть бенчмарки. История показывает, что каждая «революционная» технология завтра станет техдолгом. Упор на аугментацию данных — это, конечно, необходимо, но это лишь временное решение. Проблема не в количестве данных, а в их качестве и репрезентативности.

В конечном счете, всё новое — это старое, только с другим именем и теми же багами. Настоящий прогресс, возможно, заключается не в создании более сложных моделей, а в понимании пределов их возможностей и принятии того, что идеальной системы не существует. И да, стоит задуматься о том, зачем вообще машинам нужно понимать пространственные отношения. В конце концов, они просто вычисляют.


Оригинал статьи: https://arxiv.org/pdf/2601.01984.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-07 01:59