iFlyBot: Робот, понимающий язык и зрение

Автор: Денис Аветисян


Новая модель искусственного интеллекта объединяет возможности обработки изображений и естественного языка для управления роботами.

Результаты, представленные на iFlyBot-3DGrounding-bench, демонстрируют частичное подтверждение эффективности подхода.
Результаты, представленные на iFlyBot-3DGrounding-bench, демонстрируют частичное подтверждение эффективности подхода.

Представлена iFlyBot-VLM – основанная на принципах больших языковых моделей система, демонстрирующая превосходные результаты в пространственном понимании, восприятии и генерации действий для задач манипулирования роботами.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Несмотря на значительный прогресс в области искусственного интеллекта, преодоление семантического разрыва между восприятием окружающей среды и низкоуровневым управлением роботами остается сложной задачей. В настоящей технической документации, ‘iFlyBot-VLM Technical Report’, представлена новая универсальная модель Vision-Language (VLM) – iFlyBot-VLM, предназначенная для улучшения возможностей воплощенного интеллекта. Модель абстрагирует сложную визуальную и пространственную информацию в универсальный операционный язык, обеспечивая бесшовную координацию восприятия и действий на различных роботизированных платформах. Способна ли iFlyBot-VLM стать масштабируемой основой для создания универсальных, когнитивно способных агентов, способных к эффективному взаимодействию с реальным миром?


Пространственное Понимание: Узкое Место Воплощенного ИИ

Современные системы искусственного интеллекта испытывают трудности с надежным пространственным пониманием, что ограничивает их взаимодействие с физическим миром. Интеграция компьютерного зрения и обработки естественного языка для полноценного пространственного рассуждения остается сложной задачей. Традиционные модели часто лишены «заземленности», необходимой для воплощенного интеллекта, например, в манипулировании роботами или навигации. Ключевая проблема – эффективное сопоставление 2D и 3D восприятия с языком для рассуждений о пространственных отношениях. Без этого даже простые задачи, требующие осведомленности об окружающей среде, становятся сложными.

Модель демонстрирует возможности в области указания на объекты в пространстве, построения двумерных траекторий, определения областей доступности, обнаружения трехмерных ограничивающих рамок, определения поз захвата объектов, подсчета объектов, оценки пространственных отношений, построения карт по нескольким изображениям и планирования задач, а также обладает выдающимися мультимодальными способностями, такими как генерация подписей, привязка к реальным объектам и оптическое распознавание символов, достигая передовых результатов на различных оценочных наборах данных.
Модель демонстрирует возможности в области указания на объекты в пространстве, построения двумерных траекторий, определения областей доступности, обнаружения трехмерных ограничивающих рамок, определения поз захвата объектов, подсчета объектов, оценки пространственных отношений, построения карт по нескольким изображениям и планирования задач, а также обладает выдающимися мультимодальными способностями, такими как генерация подписей, привязка к реальным объектам и оптическое распознавание символов, достигая передовых результатов на различных оценочных наборах данных.

Пространство и язык – системы организации, и лишь в их гармонии рождается истинное понимание мира.

iFlyBot-VLM: Основа Пространственного Интеллекта

Модель iFlyBot-VLM – новая модель «зрение-язык», разработанная для воплощенных сценариев. Она призвана преодолеть разрыв между восприятием и действием, эффективно сопоставляя визуальную информацию с лингвистическими командами. В ее основе лежит Vision Transformer (ViT) для эффективного выравнивания признаков и Dimension-Expanded Position Embedding (DEPE) для точного захвата пространственного контекста. Многослойный персептрон (MLP) Projector преобразует визуальные признаки в языковое пространство, позволяя большой языковой модели (LLM) – InternVL3 – рассуждать об окружающей среде. Этот подход позволяет модели не только воспринимать, но и понимать среду, генерируя соответствующие действия.

Модель iFlyBot-VLM построена на трехэтапном принципе
Модель iFlyBot-VLM построена на трехэтапном принципе «ViT-Projector-LLM», характерном для современных Vision-Language Models.

Проверка на Разнообразных Пространственных Тестах

Модель iFlyBot-VLM демонстрирует передовые результаты на ключевых наборах данных, включая Blink Dataset и RefSpatial Dataset, подтверждая ее превосходство в пространственном понимании. На Where2Place-bench модель достигает точности 85.69%, превосходя все протестированные модели. На RefSpatial-bench точность составляет 51.5%, что на 12 процентных пунктов выше, чем у Embodied-R1. Валидация способности модели предсказывать траектории осуществляется с использованием VABench-V Dataset. Оценка на ShareRobot Dataset подтверждает эффективность iFlyBot-VLM в роботизированной манипуляции, достигая Dynamic Fréchet Distance (DFD) 0.18, превосходя RoboBrain 2.0-7B (0.2368) и RoboBrain 2.0-32B (0.5512).

Частичные результаты, полученные на iFlyBot-GraspPose-bench, демонстрируют эффективность предложенного подхода.
Частичные результаты, полученные на iFlyBot-GraspPose-bench, демонстрируют эффективность предложенного подхода.

Дальнейшая оценка на EgoPlan2 Dataset показывает, что iFlyBot-VLM достигает лучших результатов с точностью 47%, а на MultiSPA Dataset демонстрирует возможности модели в сложном планировании задач и многокадровом пространственном понимании.

К Более Разумным Воплощенным Агентам

Система iFlyBot-VLM демонстрирует развитые способности к пространственному рассуждению, что является ключевым фактором для автономной работы роботов в сложных условиях. Точное восприятие и понимание пространственных взаимосвязей повышает эффективность и надежность задач. Способность модели к анализу доступности объектов обеспечивает более интуитивное и эффективное взаимодействие человека с роботом, позволяя роботу не только распознавать объекты, но и понимать, какие действия с ними возможны. Использование метода Chain-of-Thought (CoT) prompting повышает объяснимость работы модели, укрепляя доверие и сотрудничество. Прозрачность процесса принятия решений позволяет пользователям лучше понимать логику действий робота.

На основе ShareRobot-Bench-Affordance benchmark были получены частичные результаты, где красной линией обозначена область маски ground truth, а зеленой – ограничивающая рамка ground truth, что позволяет сравнить оригинальные и аннотированные данные.
На основе ShareRobot-Bench-Affordance benchmark были получены частичные результаты, где красной линией обозначена область маски ground truth, а зеленой – ограничивающая рамка ground truth, что позволяет сравнить оригинальные и аннотированные данные.

Способность видеть мир не просто как набор объектов, а как систему возможностей, есть отражение истинной сущности интеллекта.

Представленная работа над iFlyBot-VLM демонстрирует стремление к элегантности в решении сложных задач. Модель, способная к пространственному пониманию и генерации действий для манипулирования роботами, подтверждает, что истинная сила заключается не в количестве параметров, а в их эффективном использовании. Как однажды заметил Дональд Дэвис: “Простота — высшая форма совершенства”. iFlyBot-VLM, с его акцентом на четкое понимание и генерацию действий, иллюстрирует эту мысль. Стремление к ясности в архитектуре модели позволяет добиться более высокой производительности в задачах, связанных с embodied AI, чем у более громоздких систем. В конечном счете, успех iFlyBot-VLM заключается в том, что он отказывается от излишней сложности в пользу функциональности и точности.

Что дальше?

Представленная работа, несомненно, демонстрирует прогресс в области моделей «зрение-язык» для воплощенного искусственного интеллекта. Однако абстракции стареют. Успешное выполнение манипуляций роботом – лишь следствие, а не причина. Истинный вопрос – не в точности предсказания траектории, а в понимании принципов, лежащих в основе целесообразности действий.

Каждая сложность требует алиби. Совершенствование моделей предсказания требует не только увеличения объема данных, но и переосмысления метрик. Достаточно ли простого соответствия визуальным сигналам? Или необходима интеграция с моделями, учитывающими физические ограничения и причинно-следственные связи? Необходимо исследовать возможность создания более компактных, но принципиально более эффективных моделей, избегающих излишней параметризации.

Проблема пространственного понимания остается открытой. Модели, способные к абстрактному мышлению и планированию, все еще далеки от совершенства. Следующим шагом видится не просто улучшение точности восприятия, а развитие способности к адаптации и обучению в новых, непредсказуемых условиях. Ключ к успеху – не в увеличении вычислительной мощности, а в элегантности алгоритмов.


Оригинал статьи: https://arxiv.org/pdf/2511.04976.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-10 20:26