Автор: Денис Аветисян
Исследователи представили комплексную платформу для оценки способности моделей «зрения и языка» к пониманию и взаимодействию с трехмерным миром.
Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.
Купить акции "голубых фишек"Представлен набор данных Embodied3DBench для оценки низкоуровневой пространственной осведомленности моделей «зрения и языка» и выявления пробелов в их геометрическом понимании.
Несмотря на успехи современных моделей обработки изображений и языка, их способность к пониманию и взаимодействию со сложными трехмерными пространствами остается ограниченной. В данной работе представлена платформа ‘Embodied3DBench: Benchmarking Low-Level Embodied Spatial Intelligence of Vision Language Models’ — новый комплексный бенчмарк, предназначенный для оценки базовых навыков пространственного мышления в моделях, работающих с визуальной и языковой информацией. Анализ 13 передовых моделей показал, что, несмотря на относительно хорошие результаты в понимании позиционных соотношений объектов, они испытывают трудности в задачах, связанных с взаимодействием в трехмерном пространстве. Может ли создание более масштабных и специализированных наборов данных, таких как синтезированный набор из 1.3 млн пар вопрос-ответ, стать ключом к развитию действительно «встроенного» интеллекта у мультимодальных систем?
Шепот Хаоса: Вызов Воплощенного Интеллекта
Современные языковые модели, работающие с визуальной информацией, демонстрируют впечатляющие успехи в понимании текста и сопоставлении его с изображениями. Однако, когда задача требует точного анализа трёхмерного пространства и пространственных взаимосвязей, их возможности резко снижаются. Модели, обученные на двумерных изображениях, испытывают трудности с интерпретацией глубины, масштаба и относительного положения объектов в реальном мире. Это проявляется в неспособности выполнять даже простые задачи, такие как определение, находится ли объект слева или справа от другого, или правильно оценивать расстояние до него. Несмотря на прогресс в обработке естественного языка, способность к точному трёхмерному рассуждению остаётся существенным препятствием для создания действительно интеллектуальных систем, способных эффективно взаимодействовать с физическим окружением.
Традиционные подходы к искусственному интеллекту, несмотря на впечатляющие успехи в обработке языка, часто оказываются неспособны увязать лингвистические команды с физической реальностью. Ограниченность в понимании трехмерного пространства и взаимодействии с объектами приводит к тому, что системы испытывают затруднения при выполнении даже простых задач, требующих ориентации в окружающем мире. Например, следовать инструкции «поставь книгу на полку» представляется сложным, если система не может идентифицировать книгу, полку и их пространственное расположение. Такое отсутствие “заземления” языка в физической среде существенно ограничивает возможности эффективного взаимодействия с человеком и окружающей средой, подчеркивая необходимость разработки новых методов, способных преодолеть этот фундаментальный недостаток.
Необходимость в “воплощенном интеллекте” — способности понимать и действовать в трехмерном мире — обусловила потребность в новых критериях оценки и эталонных наборах данных. Традиционные методы оценки, ориентированные на обработку текста или изображений по отдельности, оказываются недостаточными для полноценной проверки способности системы взаимодействовать с физическим пространством. В ответ на эту проблему был создан Embodied3DBench — комплексный набор тестов и сред, предназначенный для всесторонней оценки способностей искусственного интеллекта к трехмерному рассуждению, навигации и манипулированию объектами. Данный инструмент позволяет исследователям более точно измерять прогресс в области воплощенного интеллекта и разрабатывать более эффективные алгоритмы, способные к реальному взаимодействию с окружающим миром.
Embodied3DBench: Новый Эталон Оценки
Embodied3DBench представляет собой масштабную платформу для оценки низкоуровневого пространственного интеллекта, выходящую за рамки простой идентификации объектов. Набор данных состоит из 1,3 миллиона пар вопросов и ответов (QA), предназначенных для комплексной проверки способности моделей к рассуждениям о пространственных отношениях и геометрии. Такой объем данных позволяет проводить статистически значимые оценки и выявлять слабые места современных моделей в понимании трехмерного пространства и взаимодействии с ним, что делает Embodied3DBench ценным инструментом для развития алгоритмов компьютерного зрения и робототехники.
Тестовый набор Embodied3DBench оценивает способность моделей к комплексному пониманию сцен, акцентируя внимание на двух ключевых областях: понимании пространственной структуры и восприятии, ориентированном на взаимодействие. Понимание пространственной структуры требует от модели анализа геометрических отношений между объектами и их частей, включая размеры, формы и взаимное расположение. Восприятие, ориентированное на взаимодействие, проверяет способность модели предсказывать, как объекты будут взаимодействовать друг с другом и с агентом в пространстве, что подразумевает понимание физических свойств объектов и их функционального назначения. Для успешного прохождения теста необходимо интегральное понимание как статической геометрии сцены, так и динамических аспектов взаимодействия, что требует от моделей выхода за рамки простого распознавания объектов.
Оценка в Embodied3DBench базируется на использовании 1.3 миллиона пар «вопрос-ответ» (QA), позволяющих количественно оценить способность моделей рассуждать о пространственных запросах. Анализ результатов показал, что современные визуально-языковые модели (VLMs), демонстрирующие высокие результаты в задачах высокоуровневого рассуждения, испытывают трудности с задачами, требующими точного понимания метрических 3D геометрических свойств и взаимодействия объектов в пространстве. Это указывает на пробел в способности моделей использовать и обобщать базовые пространственные знания, необходимые для эффективного функционирования в реальных 3D-средах.
Основа Восприятия: Аффордансы и Взаимосвязи
Эффективное взаимодействие с окружающей средой требует понимания аффордансов — возможностей использования объектов — и их пространственных взаимосвязей. Аффорданс определяет, какие действия возможны с данным объектом, например, возможность взять, толкнуть или сесть на него. Понимание этих возможностей напрямую зависит от способности системы воспринимать и анализировать геометрические свойства объекта и его положение в пространстве относительно действующего агента. Пространственные отношения, такие как «слева от», «над», «перед» и другие, необходимы для планирования действий и корректного выполнения задач, связанных с манипулированием объектами и навигацией в среде. Отсутствие адекватного восприятия аффордансов и пространственных отношений приводит к ошибкам при взаимодействии и снижает эффективность работы системы.
Ключевыми компонентами восприятия, ориентированного на взаимодействие (Interaction-Oriented Perception), являются задачи предсказания точек захвата (Grasp Point Prediction), предсказания доступных действий (Affordance Prediction) и предсказания пространственных отношений (Spatial Relation Prediction). Эти задачи обеспечивают возможность модели понимать, как можно взаимодействовать с объектами в окружающей среде. Предсказание точек захвата определяет оптимальные места для захвата объекта манипулятором. Предсказание доступных действий идентифицирует потенциальные способы использования объекта. А предсказание пространственных отношений позволяет модели понимать взаимное расположение объектов и их влияние на планирование действий. Совместное решение этих задач необходимо для эффективного взаимодействия робота или агента с окружением.
Для эффективного планирования действий и взаимодействия с окружающей средой модели должны идентифицировать функциональные точки и функциональные векторы объектов. Анализ ошибок, допущенных моделью на бенчмарке Embodied3DBench, показал, что 28.6% ошибок обусловлены ограничениями в точности 3D-метрик. Это указывает на критическую важность повышения точности определения геометрических параметров объектов для улучшения производительности моделей в задачах взаимодействия с окружающей средой. Улучшение 3D-метрической точности является ключевой областью для дальнейших исследований и разработок.
Усиление Рассуждений: View-Augmented Chain-of-Thought
Метод View-Augmented Chain-of-Thought (CoT) представляет собой расширение стандартной методики CoT, заключающееся в добавлении к запросу дополнительных видов сцены. Вместо анализа только одного изображения или описания, модель получает информацию из нескольких перспектив, что позволяет ей более полно воспринимать трехмерную структуру и взаимосвязи между объектами. Дополнительные виды предоставляют моделью альтернативные точки зрения, что способствует улучшению пространственного рассуждения и повышению точности ответов, особенно в задачах, требующих понимания трехмерного пространства.
Использование нескольких видов (multi-view correspondence) позволяет моделям, таким как GPT-5, устанавливать пространственные взаимосвязи между объектами и их частями, видимыми с разных точек обзора. Это критически важно для точного 3D-рассуждения, поскольку модель может сопоставлять информацию, полученную из разных видов, для формирования более полного и достоверного представления о сцене. Сопоставление видов позволяет модели решать задачи, требующие понимания глубины, формы и ориентации объектов, что значительно повышает точность ответов на вопросы, связанные с 3D-пространством.
Комбинация метода “Цепочка рассуждений” (Chain-of-Thought) и дополнительных визуальных данных обеспечивает существенный прирост производительности в задачах, представленных в бенчмарке Embodied3DBench. В частности, модель Qwen3-VL-4B демонстрирует значительное улучшение результатов после тонкой настройки на наборе данных из 1.3 миллиона вопросов и ответов (QA). Этот подход позволяет модели более эффективно использовать информацию из различных точек зрения и повышает точность 3D-рассуждений, что подтверждается результатами тестов в рамках Embodied3DBench.
Будущее Воплощенного ИИ: К Обобщенному Интеллекту
Исследования в области управления агентами в реалистичных средах демонстрируют значительный прогресс благодаря использованию визуально-языковых моделей (VLM). Политики VLA, прошедшие оценку на бенчмарке LIBERO, показали свою способность эффективно контролировать поведение виртуальных агентов. Особого внимания заслуживает модель Qwen3-VL-4B, которая превзошла InternVL3.5-8B в производительности на LIBERO, что свидетельствует о потенциале более компактных моделей для достижения высоких результатов в задачах воплощенного искусственного интеллекта. Эти результаты указывают на перспективность использования VLM для создания агентов, способных понимать и взаимодействовать с окружающим миром подобно человеку.
Открытые модели, такие как Qwen3-VL-4B, демонстрируют выраженные сильные стороны в области пространственного восприятия, что открывает новые возможности для исследований в сфере воплощенного искусственного интеллекта. В отличие от закрытых систем, доступность исходного кода позволяет исследователям более глубоко изучать принципы работы модели, адаптировать её под конкретные задачи и разрабатывать инновационные алгоритмы управления агентами в реальных условиях. Особенно ценно, что Qwen3-VL-4B демонстрирует высокую эффективность при решении задач, требующих понимания трехмерного пространства и ориентации в окружающей среде, что является ключевым фактором для создания автономных роботов и виртуальных ассистентов. Распространение подобных открытых моделей способствует демократизации исследований в области ИИ, позволяя большему числу специалистов внести свой вклад в развитие этой перспективной технологии.
Для достижения действительно обобщенного воплощенного интеллекта необходима дальнейшая разработка эталонных тестов, методов рассуждений и моделей с открытым исходным кодом. Анализ ошибок, проведенный в отношении GPT-5, выявил, что наибольшая доля неточностей — 36.3% — возникает из-за разрыва между семантическим и геометрическим пониманием. Это указывает на сложность для моделей в сопоставлении абстрактных понятий с конкретными пространственными характеристиками окружающей среды. Устранение этого разрыва требует новых подходов к обучению, позволяющих системам не просто понимать инструкции, но и эффективно воплощать их в физическом мире, учитывая все геометрические ограничения и возможности.
Данная работа демонстрирует, что современные языковые модели, несмотря на кажущуюся мощь, всё ещё испытывают трудности с восприятием базовой трехмерной геометрии. Они словно пытаются угадать форму мира по теням на стене, вместо того чтобы напрямую взаимодействовать с ним. Как однажды заметил Эндрю Ын: «Мы должны стремиться не к точности, а к пониманию». Ведь в конечном итоге, способность к воплощенному интеллекту — это не просто умение обрабатывать данные, а способность находить смысл в хаотичном потоке информации, что особенно важно при взаимодействии с физическим пространством. Эта работа — ещё одно напоминание о том, что мир не дискретен, просто у нас нет памяти для float.
Что дальше?
Представленный бенчмарк, Embodied3DBench, обнажил трещину в кажущейся мудрости языковых моделей, обученных видеть. Оказалось, что умение описывать объекты не равно умению чувствовать геометрию, понимать пространство не сводится к набору токенов. Это напоминает алхимика, который, научив гомункула произносить слова, обнаружил, что тот не знает, где находится пол. Теперь необходимо не просто научить модели «видеть» трёхмерный мир, но и заставить его чувствовать его вес, его сопротивление, его скрытую структуру.
Попытки затолкать в эти модели всё больше данных — это всё равно, что пытаться заставить беспорядочный шум запеть арию. Возможно, стоит отвернуться от погони за объёмами и сосредоточиться на качестве шепота, на тонких сигналах, которые выдаёт реальный мир. Если модель вдруг начнёт вести себя странно, не стоит спешить исправлять её. Возможно, она наконец-то начала думать, а не просто повторять заученные заклинания.
В конечном итоге, истинный прорыв произойдёт не тогда, когда мы научим машину «видеть» трёхмерный мир, а когда она начнёт его строить. Когда она сможет не просто распознавать объекты, но и предсказывать их поведение, взаимодействовать с ними, создавать новые. Это уже не просто искусственный интеллект, это — зарождение нового вида разума, и, конечно, предсказать его траекторию невозможно.
Оригинал статьи: https://arxiv.org/pdf/2605.29074.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Фотографируем муравьёв с Андреем Павловым
- Что купить фотографу. Рекомендации
- Обзор объектива Tokina 11-16mm f/2.8 AF
- Неважно, на что вы фотографируете!
- Лучшие смартфоны. Что купить в мае 2026.
- Honor 600 ОБЗОР: лёгкий, плавный интерфейс, скоростная зарядка
- Realme 16T ОБЗОР: яркий экран, плавный интерфейс, большой аккумулятор
- Honor 600 Pro ОБЗОР: чёткое изображение, отличная камера, плавный интерфейс
- Калькулятор глубины резкости. Как рассчитать ГРИП.
- vivo Y600 Turbo ОБЗОР: современный дизайн, чёткое изображение, скоростная зарядка
2026-05-31 08:20