От взгляда к действию: как человеческий опыт обучает роботов

Автор: Денис Аветисян


Новое исследование показывает, что обучение моделей компьютерного зрения и языка на видеозаписях человеческой деятельности позволяет значительно улучшить навыки роботов в манипулировании объектами.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Архитектура VLA, построенная на базе PhysBrain, кодирует мультимодальный контекст из последовательности эгоцентрических наблюдений и языковых инструкций для генерации действий, при этом PhysGR00T обуславливает эксперта по диффузии на основе потокового соответствия скрытыми состояниями последнего слоя PhysBrain, а PhysPIm тесно связывает PhysBrain и эксперта по действиям, внедряя несколько слоев VLM посредством кросс-внимания на уровне слоев.
Архитектура VLA, построенная на базе PhysBrain, кодирует мультимодальный контекст из последовательности эгоцентрических наблюдений и языковых инструкций для генерации действий, при этом PhysGR00T обуславливает эксперта по диффузии на основе потокового соответствия скрытыми состояниями последнего слоя PhysBrain, а PhysPIm тесно связывает PhysBrain и эксперта по действиям, внедряя несколько слоев VLM посредством кросс-внимания на уровне слоев.

Использование крупномасштабных данных человеческого восприятия как моста между моделями «зрение-язык» и физическим интеллектом.

Несмотря на успехи в области визуально-языковых моделей, их адаптация к задачам управления роботами затруднена из-за несоответствия перспективы восприятия. В работе ‘PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence’ предложен подход, использующий крупномасштабные видеозаписи от первого лица, снятые человеком, для обучения моделей пониманию физического мира и планированию действий. Показано, что предварительное обучение моделей на данных, имитирующих человеческое восприятие, существенно улучшает их способность к манипулированию объектами и повышает эффективность обучения роботов. Сможет ли этот подход преодолеть разрыв между виртуальным обучением и реальным применением робототехники, снизив потребность в дорогостоящих и трудоемких экспериментах с роботами?


Постижение Мира через Воплощенный Разум

Традиционные системы искусственного интеллекта зачастую сталкиваются с трудностями при решении задач, требующих воплощенного интеллекта и пространственного восприятия. В отличие от человека, способного интуитивно ориентироваться в окружающем мире, большинство алгоритмов ИИ обрабатывают данные как абстрактные значения, лишенные контекста физического взаимодействия. Это проявляется в неспособности эффективно выполнять даже простые манипуляции с объектами, планировать маршруты в динамичной среде или адаптироваться к неожиданным изменениям обстановки. Недостаток понимания физических ограничений и последствий действий приводит к неэффективности и ошибкам, демонстрируя существенное отставание от когнитивных способностей, присущих живым организмам, и подчеркивая необходимость разработки принципиально новых подходов к созданию интеллектуальных систем.

Для эффективного функционирования в реальном мире, искусственному интеллекту необходимо умение рассуждать с точки зрения первого лица. В отличие от традиционных систем, обрабатывающих информацию объективно, подобно стороннему наблюдателю, успешная навигация и взаимодействие с окружением требуют понимания пространства и объектов, как если бы система сама находилась “внутри” него. Это означает, что ИИ должен учитывать собственную позицию, перспективу и потенциальные действия, что позволяет предвидеть последствия и адаптироваться к изменяющимся условиям. Именно способность к эгоцентрическому рассуждению позволяет системе не просто распознавать объекты, но и понимать, как они соотносятся с ней самой, и как она может с ними взаимодействовать, обеспечивая более естественное и эффективное поведение в динамичной среде.

Для достижения подлинного понимания окружающей среды искусственным интеллектом необходимо использовать эгоцентричные данные и рассуждения. В отличие от традиционных подходов, полагающихся на объективные наблюдения, эгоцентричная перспектива позволяет системе воспринимать мир так, как это делает агент, действующий в нем — то есть, через собственный «взгляд» и возможности взаимодействия. Это включает в себя анализ визуальной информации от первого лица, данные о собственных движениях и действиях, а также моделирование последствий этих действий. Такой подход позволяет ИИ не просто распознавать объекты, но и понимать их относительное положение, доступность и значимость для достижения конкретных целей. Развитие подобных систем открывает возможности для создания роботов и виртуальных агентов, способных эффективно функционировать в сложных и динамичных реальных условиях, а также для более глубокого понимания механизмов познания и обучения.

Обучение языковой модели с использованием данных от первого лица значительно улучшает её способность к планированию и взаимодействию в воплощенном интеллекте, что подтверждается более высокой успешностью манипуляций в среде SimplerEnv.
Обучение языковой модели с использованием данных от первого лица значительно улучшает её способность к планированию и взаимодействию в воплощенном интеллекте, что подтверждается более высокой успешностью манипуляций в среде SimplerEnv.

Зрение, Язык и Действие: Новый Подход к Интеллекту

Системы «Зрение-Язык-Действие» (VLA) представляют собой комплексный подход к искусственному интеллекту, объединяющий обработку визуальной информации, понимание естественного языка и генерацию действий в единую архитектуру. В отличие от традиционных систем, где эти компоненты функционируют изолированно, VLA стремятся к интеграции, позволяя агенту воспринимать окружающую среду через визуальные данные, интерпретировать инструкции на естественном языке и выполнять соответствующие действия. Данная интеграция осуществляется посредством нейронных сетей, обучаемых на больших объемах данных, включающих изображения, текстовые описания и записи действий, что позволяет системе выстраивать связь между визуальным контекстом, лингвистическими командами и необходимыми моторными командами для выполнения поставленной задачи.

В основе систем, объединяющих зрение, язык и действия (VLA), лежат предварительно обученные модели «Зрение-Язык» (VLM), такие как PhysBrain. Эти модели предоставляют фундаментальную основу для эгоцентричного рассуждения, позволяя системе интерпретировать визуальную информацию и языковые инструкции с точки зрения агента, выполняющего действия. PhysBrain, в частности, использует архитектуру, оптимизированную для физического моделирования и предсказания, что позволяет VLA-системам понимать причинно-следственные связи в визуальном окружении и планировать последовательности действий, соответствующие заданным языковым командам. Предварительное обучение на больших объемах данных позволяет этим моделям эффективно обобщать знания и применять их к новым, ранее не встречавшимся сценариям.

Системы, связывающие зрение, язык и действия (VLA), способны преобразовывать лингвистические инструкции в последовательность действий благодаря привязке языка к визуальному контексту. Этот процесс включает в себя анализ визуальной информации, понимание смысла языкового запроса и последующее формирование плана действий, основанного на взаимосвязи между визуальными данными и лингвистической инструкцией. Эффективность данного подхода заключается в способности системы интерпретировать инструкции, относящиеся к конкретному визуальному окружению, и генерировать действия, соответствующие наблюдаемым объектам и их взаимоотношениям. Например, инструкция “Поднимите красный куб” требует не только понимания слов, но и идентификации красного куба на изображении или в видеопотоке, что обеспечивает точное выполнение действия.

Представленная схема демонстрирует процесс преобразования эгоцентричных данных в данные, соответствующие воплощенному агенту.
Представленная схема демонстрирует процесс преобразования эгоцентричных данных в данные, соответствующие воплощенному агенту.

Обучение Действий с Помощью Генеративных Моделей

Архитектуры PhysGR00T и PhysPI представляют собой два подхода к построению виртуальных агентов (VLA), использующих PhysBrain в качестве механизма для управления действиями. PhysBrain выступает в роли системы условного генерирования, которая направляет обучение эксперта по действиям, определяя желаемое поведение агента. Обе архитектуры объединяют PhysBrain с различными генеративными моделями, позволяя агентам генерировать реалистичные и эффективные траектории действий, учитывая физические ограничения и цели, заданные через PhysBrain. Это позволяет создавать агентов, способных к сложному планированию и выполнению действий в динамичных средах.

Для обучения эксперта по действиям используются методы Flow Matching и Diffusion Transformers. Flow Matching представляет собой вероятностный подход, позволяющий напрямую моделировать траектории действий, в то время как Diffusion Transformers, основанные на архитектуре Transformer, применяют процесс диффузии для генерации реалистичных траекторий. Оба метода позволяют моделировать сложные зависимости во времени и генерировать эффективные последовательности действий, обеспечивая высокую точность и плавность движений. Использование этих методов позволяет эксперту по действиям создавать правдоподобные и функциональные траектории, необходимые для решения поставленных задач, например, манипуляций с объектами или навигации в пространстве.

Дообучение с учителем (Supervised Fine-tuning, SFT) играет ключевую роль в повышении эффективности обученных моделей-экспертов по действиям. Процесс SFT предполагает дальнейшую оптимизацию модели, предварительно обученной с использованием методов, таких как Flow Matching или Diffusion Transformers, на больших наборах данных, например, Open X-Embodiment (OXE). OXE предоставляет обширный набор данных, содержащий демонстрации различных действий, что позволяет модели уточнить свои параметры и улучшить способность генерировать реалистичные и эффективные траектории действий. Использование SFT на таких масштабируемых наборах данных значительно повышает качество генерируемых действий и адаптирует модель к широкому спектру задач.

Проверка Эгоцентрического Рассуждения и Производительности

Визуальные агенты обучения (VLA), прошедшие обучение с использованием предложенных методик, демонстрируют впечатляющие результаты на эталонных тестах, таких как EgoThink. В среднем, они достигают показателя в 53.9%, что значительно превосходит производительность самых современных базовых моделей. Этот успех указывает на эффективность разработанного подхода к обучению, позволяющего агентам более точно интерпретировать и использовать визуальную информацию для решения задач, требующих эгоцентрического рассуждения. Превосходство над существующими решениями подтверждает перспективность данного направления исследований в области робототехники и искусственного интеллекта.

Исследования показали, что разработанная система, известная как VLA, демонстрирует значительные успехи в симуляционных средах, в частности, в SimplerEnv, где она достигает 53.9% успешных выполнений задач. Примечательно, что данный результат превосходит показатели моделей, обученных на значительно более крупных наборах данных, полученных от реальных роботов. Это указывает на эффективность предложенного подхода к обучению, позволяющего достигать высокой производительности даже при ограниченном количестве данных, полученных от физических роботов, и подчеркивает потенциал симуляционных сред для разработки и валидации алгоритмов управления и восприятия.

Для обучения устойчивых систем воплощенного обучения ключевое значение имеет датасет E2E-3M, обеспечивающий многоуровневое VQA-контролирование. Подход, использующий данный датасет, демонстрирует значительное улучшение результатов в симуляционной среде SimplerEnv — на 8,8% по сравнению с лучшим VLM-baseline и на 16,1% по сравнению с RoboBrain baseline, при этом требуя ограниченный объем данных о роботах. Это свидетельствует о том, что многоуровневое VQA-контролирование позволяет создавать более эффективные системы, способные к обучению даже при недостатке реальных данных, что открывает перспективы для широкого применения в робототехнике и других областях воплощенного интеллекта.

Набор данных E2E-3M представляет собой обширную коллекцию данных, характеризующуюся разнообразным распределением данных, что делает его подходящим для обучения и оценки моделей end-to-end.
Набор данных E2E-3M представляет собой обширную коллекцию данных, характеризующуюся разнообразным распределением данных, что делает его подходящим для обучения и оценки моделей end-to-end.

Представленная работа демонстрирует стремление к упрощению сложных систем, используя данные, полученные непосредственно от человека, для обучения моделей физического интеллекта. Подобный подход позволяет сократить зависимость от дорогостоящих и трудоемких данных, специфичных для робототехники. Этот фокус на ясности и эффективности перекликается с убеждением Дэвида Гильберта: «Главное — это простота. Ибо сложность — признак плохого мышления». В данном исследовании, переход от абстрактных моделей к конкретным действиям, основанным на человеческом опыте, подтверждает, что истинное совершенство достигается не в усложнении, а в умении отбросить все лишнее, выделив суть — способность к эффективному манипулированию объектами в реальном мире.

Куда Далее?

Представленная работа, безусловно, демонстрирует ценность человеческого опыта, запечатленного в эгоцентричных видеоданных, для обучения моделей, взаимодействующих с физическим миром. Однако, необходимо признать, что перенос знаний от человека к роботу — процесс несовершенный. Существующие модели по-прежнему склонны к упрощениям, игнорируя нюансы физической реальности, которые кажутся очевидными для человека. Стремление к увеличению объемов данных не должно заслонять потребность в более глубоком понимании принципов, лежащих в основе успешного манипулирования объектами.

Будущие исследования должны быть направлены не только на расширение наборов данных, но и на разработку методов, позволяющих моделям извлекать инвариантные представления о физических свойствах объектов и принципах взаимодействия с ними. Возможно, ключ к успеху лежит в смешении символьного и субсимвольного подходов, позволяющего объединить интуитивное понимание физики, присущее человеку, с вычислительной мощью современных алгоритмов. Сложность не должна быть целью; ясность — вот к чему следует стремиться.

В конечном итоге, истинным мерилом успеха будет не способность модели имитировать человеческие действия, а способность решать задачи, требующие адаптации к новым, непредсказуемым условиям. Иногда, чтобы увидеть решение, достаточно убрать лишнее.


Оригинал статьи: https://arxiv.org/pdf/2512.16793.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-20 14:48