Пространственный интеллект: новый взгляд на взаимодействие зрения и языка

Автор: Денис Аветисян

Исследователи разработали иерархическую систему и масштабный набор данных, позволяющие моделям понимать и рассуждать о трехмерном пространстве с беспрецедентной точностью.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Представлена новая методика обучения моделей обработки зрения и языка для достижения передовых результатов в понимании и рассуждении о трехмерном пространстве, использующая иерархическую структуру и метрические 3D-карты.

Несмотря на значительный прогресс в области искусственного интеллекта, наделение моделей визуально-языкового понимания способностью к полноценному трехмерному пространственному мышлению остается сложной задачей. В настоящей работе, озаглавленной ‘HiSpatial: Taming Hierarchical 3D Spatial Understanding in Vision-Language Models’, предложен принципиально новый иерархический подход к обучению моделей, разбивающий задачу на последовательные уровни сложности — от геометрического восприятия до абстрактного пространственного рассуждения. Разработанный автоматизированный конвейер позволил создать масштабный набор данных для обучения, а интеграция метрических трехмерных карт точек значительно повысила эффективность моделей в задачах пространственного VQA. Достигнутые результаты превосходят современные специализированные модели и даже крупные проприетарные системы, такие как Gemini-2.5-pro и GPT-5, что ставит вопрос о роли многоуровневого подхода в формировании полноценного 3D-пространственного интеллекта у ИИ?

За гранью пикселей: В поисках истинного трёхмерного зрения

Традиционные методы компьютерного зрения, несмотря на значительные успехи в анализе двухмерных изображений, зачастую испытывают трудности при переходе к полноценному пониманию трехмерного пространства. Это связано с тем, что обработка плоских снимков не позволяет в полной мере восстановить информацию о глубине, ориентации объектов и их взаимном расположении. В результате, системы компьютерного зрения могут успешно распознавать отдельные объекты на изображении, но им сложно оценить их пространственные связи и предсказать их поведение в реальном мире. Ограниченность в понимании трехмерной геометрии существенно препятствует развитию надежных систем для таких приложений, как автономная навигация роботов, дополненная и виртуальная реальность, а также точное моделирование окружающей среды.

Точное восприятие пространственных взаимосвязей — положения объектов, их ориентации и взаимодействия друг с другом — является фундаментальным требованием для широкого спектра практических приложений. В робототехнике, например, надежная ориентация в пространстве позволяет роботам безопасно и эффективно перемещаться в сложных средах, манипулировать объектами и взаимодействовать с окружающим миром. В сфере дополненной и виртуальной реальности (AR/VR) адекватное понимание трехмерного пространства необходимо для создания убедительных и реалистичных виртуальных опытов, где цифровые объекты органично вписываются в реальный мир, а взаимодействие с ними ощущается естественно. Без точной оценки пространственных отношений возникают искажения, задержки и несоответствия, что существенно снижает эффективность и удобство использования этих технологий.

Современные мультимодальные модели, объединяющие зрение и язык, зачастую демонстрируют ограниченные возможности в понимании сложных пространственных взаимосвязей. Хотя они способны распознавать объекты на изображениях и генерировать текстовые описания, им часто не хватает способности точно определять положение объектов в трехмерном пространстве, их ориентацию друг относительно друга и динамику их взаимодействия. Это проявляется в трудностях при решении задач, требующих понимания таких концепций, как «над», «под», «слева», «справа», или предсказания, как объекты будут перемещаться и взаимодействовать в будущем. В результате, даже продвинутые модели могут допускать ошибки при интерпретации сцен, что ограничивает их применение в областях, где критически важна точная пространственная осведомленность, таких как робототехника, дополненная реальность и автономная навигация.

Иерархия пространственного мышления: От простого к сложному

Предлагается четырехуровневая иерархическая структура для понимания трехмерного пространства: Геометрическое восприятие, Понимание пространства на уровне объектов, Понимание взаимосвязей между объектами и Абстрактное пространственное мышление. Геометрическое восприятие охватывает базовое распознавание форм и размеров. Уровень понимания на уровне объектов предполагает идентификацию отдельных объектов и их основных пространственных характеристик. Далее, уровень понимания взаимосвязей между объектами фокусируется на отношениях между объектами, таких как «над», «под», «слева от» и т.д. Наконец, абстрактное пространственное мышление включает в себя способность делать выводы и обобщения о пространственных отношениях, выходящие за рамки непосредственного восприятия.

Предлагаемая иерархия уровней пространственного рассуждения построена по принципу последовательного усложнения. Каждый последующий уровень требует интеграции и расширения способностей, приобретенных на предыдущем. Так, геометрическое восприятие, являясь базовым уровнем, обеспечивает основу для понимания объектов на втором уровне. Далее, понимание взаимосвязей между объектами требует не только идентификации объектов, но и анализа их пространственного расположения друг относительно друга. Наконец, абстрактное пространственное рассуждение предполагает использование накопленного опыта и знаний для решения более сложных задач, требующих обобщения и экстраполяции информации. Подобная структура позволяет постепенно увеличивать сложность решаемых задач и оценивать прогресс в развитии моделей визуального и языкового понимания.

Предлагаемая декомпозиция пространственного рассуждения на четыре уровня позволяет проводить целенаправленную оценку визуально-языковых моделей (VLM) на различных стадиях развития пространственного интеллекта. Разделение на уровни — от геометрического восприятия до абстрактного рассуждения — обеспечивает возможность точного определения сильных и слабых сторон конкретной модели на каждом этапе. Такая структурированная оценка способствует не только объективному сравнению различных VLMs, но и направленному улучшению их возможностей, позволяя разработчикам сосредоточиться на конкретных аспектах пространственного мышления и достигать постепенного прогресса в данной области. Использование данной иерархии позволяет отслеживать улучшения в каждой подзадаче, а не полагаться на общие показатели производительности.

Автоматизированная генерация данных для Spatial VQA: Разумные данные, разумные модели

Разработанный нами автоматизированный конвейер генерации данных предназначен для создания масштабных наборов данных пар «вопрос-ответ» для задач пространственного визуального вопросно-ответного анализа (Spatial VQA). Конвейер позволяет автоматически генерировать большое количество данных, необходимых для обучения и оценки моделей Spatial VQA, снижая зависимость от ручной аннотации и обеспечивая возможность создания разнообразных и сложных сценариев, охватывающих широкий спектр пространственных отношений и визуальных объектов. Это достигается путем интеграции различных инструментов и алгоритмов, позволяющих генерировать изображения, обнаруживать объекты, сегментировать сцены и формулировать вопросы и ответы, соответствующие визуальному контенту.

Для автоматизированного создания данных используется конвейер, включающий несколько ключевых инструментов. MoGe-2 генерирует метрические карты точек, обеспечивая точное пространственное представление сцены. Сегментация изображений осуществляется посредством SAM (Segment Anything Model), что позволяет выделять объекты на изображениях. Обнаружение объектов реализовано с помощью GroundingDINO, обеспечивающего идентификацию и локализацию объектов в пространстве. Комбинация этих методов позволяет создавать структурированные данные, необходимые для формирования вопросов и ответов в задачах пространственного визуального вопросно-ответного анализа (Spatial VQA).

Автоматизированный конвейер позволяет генерировать разнообразные и сложные вопросы для пространственного визуального вопросно-ответного анализа (VQA) вместе с соответствующими эталонными ответами. Используя MoGe-2 для создания метрических карт, SAM для сегментации изображений и GroundingDINO для обнаружения объектов, система способна создавать данные, охватывающие широкий спектр пространственных отношений и визуальных сценариев. Генерация вопросов и ответов происходит автоматически, что позволяет масштабировать процесс создания обучающих данных и создавать наборы данных, способные оценивать и улучшать способность моделей VQA к пониманию сложных визуальных сцен и пространственных рассуждений.

Для генерации текстовых описаний, используемых в парах вопросов и ответов для Spatial VQA, мы применяем большие языковые модели, воспринимающие изображения (VLMs), такие как Qwen2.5-VL и Qwen3-VL. Эти модели позволяют автоматически создавать разнообразные и контекстуально релевантные описания сцен, объектов и их пространственных отношений на изображениях. В процессе генерации VQA пар, VLM получает на вход изображение и информацию об объектах, обнаруженных на нем, а на выходе формирует текстовый вопрос, требующий понимания пространственных взаимосвязей, и соответствующий ответ, основанный на анализе изображения.

Оценка пространственного мышления с помощью бенчмарков: Проверка на прочность

Для оценки разработанного подхода использовался ряд бенчмарков, предназначенных для анализа 3D-пространственного понимания. В этот набор вошли SpatialRGPT, CVBench, EmbSpatial, 3DSRBench, RoboSpatial и QSpatial. Каждый из этих бенчмарков предоставляет стандартизированный набор задач, позволяющий оценить производительность визуально-языковых моделей (VLM) в решении задач, требующих различных уровней пространственного рассуждения и понимания трехмерной геометрии. Использование разнообразных бенчмарков обеспечило всестороннюю оценку возможностей модели в различных сценариях и позволило сравнить её результаты с существующими решениями.

Использование наборов данных, таких как SpatialRGPT, CVBench, EmbSpatial, 3DSRBench, RoboSpatial и QSpatial, обеспечивает стандартизированную оценку производительности мультимодальных моделей (VLM) в задачах, требующих пространственного мышления. Эти бенчмарки включают в себя задания различной сложности, позволяя оценить способность модели к пониманию и рассуждению о трехмерном пространстве на разных уровнях. Стандартизация оценки позволяет объективно сравнивать различные модели и отслеживать прогресс в области пространственного ИИ, предоставляя единую метрику для оценки производительности в задачах, требующих анализа пространственных отношений, ориентации объектов и понимания трехмерных сцен.

Результаты экспериментов демонстрируют, что разработанный подход превосходит существующие специализированные модели пространственного анализа и крупные проприетарные системы, такие как Gemini-2.5-pro и GPT-5, по ряду стандартных бенчмарков для оценки 3D-понимания. Данное превосходство было зафиксировано на нескольких эталонных наборах данных, включая SpatialRGPT, CVBench, EmbSpatial, 3DSRBench, RoboSpatial и QSpatial, что подтверждает эффективность предложенного метода в задачах, требующих развитых навыков пространственного мышления и рассуждения.

При исключении задач из уровней 0 и 1 наблюдалось снижение точности на 8.14%, в то время как удаление задач из уровней 1 и 2 привело к снижению точности на 14.51%. Данные результаты демонстрируют, что все уровни в нашей иерархической структуре вносят вклад в общую производительность и являются необходимыми для достижения оптимальной точности в задачах, требующих пространственного мышления. Снижение точности при исключении задач с более высоких уровней (1 и 2) более значительно, что подчеркивает важность комплексного пространственного понимания, обеспечиваемого этими уровнями.

В ходе экспериментов было установлено, что использование метрических карт точек (point clouds) значительно улучшает понимание пространственных отношений по сравнению с относительными картами глубины. Метрические карты точек предоставляют абсолютные координаты точек в трехмерном пространстве, что позволяет моделям более точно оценивать расстояния, размеры и ориентацию объектов. В то время как относительные карты глубины кодируют информацию о глубине относительно камеры, что может приводить к искажениям и неточностям при анализе сложных сцен и выполнении задач, требующих точного пространственного рассуждения. Полученные данные свидетельствуют о том, что предоставление модели абсолютной пространственной информации посредством метрических карт точек является ключевым фактором для повышения эффективности в задачах пространственного понимания.

Будущее: К воплощенному пространственному интеллекту

Будущие исследования направлены на расширение существующей структуры за счет интеграции воплощенных агентов и взаимодействия с реальным миром. Это предполагает разработку визуально-языковых моделей (VLM), способных не только обрабатывать визуальную и текстовую информацию, но и действовать в физическом окружении, используя полученные знания для навигации, манипулирования объектами и решения задач. В рамках этого подхода, модели будут обучаться, взаимодействуя с окружающей средой через сенсоры и актуаторы, что позволит им развивать более глубокое и контекстуальное понимание пространства и объектов. Такое воплощение позволит преодолеть ограничения, присущие традиционным VLM, которые оперируют исключительно с пассивными данными, и приблизиться к созданию искусственного интеллекта, способного к полноценному восприятию и взаимодействию с окружающим миром.

Внедрение RGB-D визуальных языковых моделей (ВЯМ) представляет собой значительный шаг к повышению точности и надежности пространственного мышления. Эти модели, объединяющие стандартные RGB-изображения с информацией о глубине, позволяют системам не только «видеть» объекты, но и воспринимать их трехмерную структуру и взаимное расположение. Такой подход существенно расширяет возможности ВЯМ в решении задач, требующих понимания геометрии пространства, например, при навигации, манипулировании объектами или анализе сложных сцен. Интеграция данных о глубине позволяет моделям более эффективно различать объекты на переднем и заднем плане, оценивать расстояния и размеры, а также строить более полные и достоверные представления об окружающей среде, что критически важно для достижения человеческого уровня интеллекта в понимании и взаимодействии с физическим миром.

Для дальнейшего развития моделей визуально-языкового понимания (VLM) необходимо расширение спектра решаемых задач и использование более сложных критериев оценки. Исследователи сосредотачиваются на разработке тестов, требующих не просто распознавания объектов, а и понимания их взаимосвязей в пространстве, планирования действий и решения проблем, требующих логических выводов. Создание таких сложных бенчмарков позволит оценить способность моделей к обобщению знаний и адаптации к новым, ранее не встречавшимся ситуациям, что является ключевым шагом на пути к созданию искусственного интеллекта, способного к полноценному взаимодействию с окружающим миром.

В конечном счете, стремление к созданию визуально-языковых моделей (VLM), способных беспрепятственно ориентироваться в трехмерном пространстве, манипулировать объектами и понимать окружающий мир на уровне человеческого интеллекта, представляет собой амбициозную задачу. Такие модели должны не просто распознавать объекты на изображениях, но и формировать пространственные представления, планировать действия и адаптироваться к изменяющимся условиям окружающей среды. Реализация подобного уровня когнитивных способностей потребует интеграции передовых алгоритмов компьютерного зрения, робототехники и искусственного интеллекта, что позволит машинам взаимодействовать с физическим миром так же естественно и эффективно, как и человек. Успешное достижение этой цели откроет новые горизонты в области автономных систем, робототехники и взаимодействия человека с компьютером.

Исследование демонстрирует, что для овладения истинным пониманием трёхмерного пространства недостаточно просто «скормить» модели данные. Необходимо выстроить иерархию задач, подобно обучению подмастерья, где каждая ступень открывает путь к более глубокому постижению геометрии. Как однажды заметил Ян Лекун: «Глубокое обучение — это, по сути, обучение представлению». Именно над представлением трёхмерного мира и работает HiSpatial, создавая цифрового голема, способного не просто видеть точки, но и понимать их взаимосвязь. Эта работа подтверждает, что даже самые мощные заклинания требуют тщательной подготовки и структурированного подхода к обучению, иначе цифровой голем останется лишь набором случайно связанных символов.

Что дальше?

Представленная работа, безусловно, наводит порядок в хаосе пространственного понимания, но, как известно, порядок — это лишь временное затишье перед новым беспорядком. Создание иерархической структуры и датасета — это, конечно, шаг вперёд, но данные — это не истина, а компромисс между багом и Excel. Вопрос в том, насколько эта иерархия устойчива к шуму реального мира, к неполноте информации, к той самой «неопределённости», которую так любят игнорировать в академических публикациях.

Особенно интересно, как предложенный подход масштабируется на задачи, где важна не только метрика, но и семантика. Всё-таки, понимание «рядом», «над», «под» — это не только вычисление расстояний в трёхмерном пространстве, но и культурный контекст, который, к сожалению, пока сложно вложить в нейронную сеть. И, конечно, возникает вопрос: а не слишком ли мы полагаемся на point maps? Не является ли это элегантным, но всё же костылём, который скрывает более глубокие проблемы в архитектуре моделей?

Будущее, вероятно, лежит в направлении более гибких, адаптивных систем, способных учиться не только на labeled data, но и на взаимодействии с окружающим миром. Всё, что не нормализовано, всё ещё дышит, и модели, которые не умеют справляться с непредсказуемостью, обречены на забвение. И да, автор доверяет только тем, кто умеет лгать последовательно — это признак хорошо обученной модели.

Оригинал статьи: https://arxiv.org/pdf/2603.25411.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-28 07:45