Роботы учатся «видеть» мир: новая система для 3D-манипуляций

Автор: Денис Аветисян


Исследователи представили UMI-3D — платформу для сбора данных, позволяющую роботам надежно ориентироваться в пространстве и выполнять сложные манипуляции с объектами.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Система UMI-3D использует носимое на запястье сенсорное устройство, обеспечивающее согласованное наблюдение как при демонстрации человеком, так и при выполнении роботом, при этом широкоугольная fisheye-камера формирует общее наблюдательное пространство, а непрерывное отслеживание захвата позволяет точно записывать и контролировать действия, создавая тем самым унифицированный интерфейс восприятия и действия для сбора данных и развертывания стратегий.
Система UMI-3D использует носимое на запястье сенсорное устройство, обеспечивающее согласованное наблюдение как при демонстрации человеком, так и при выполнении роботом, при этом широкоугольная fisheye-камера формирует общее наблюдательное пространство, а непрерывное отслеживание захвата позволяет точно записывать и контролировать действия, создавая тем самым унифицированный интерфейс восприятия и действия для сбора данных и развертывания стратегий.

Система UMI-3D использует LiDAR для создания точных 3D-карт окружения, расширяя возможности обучения роботов и преодолевая ограничения систем, основанных только на визуальном восприятии.

Несмотря на успехи в области обучения с подкреплением, сбор надежных и масштабируемых данных для манипуляций роботами остается сложной задачей, особенно в реальных условиях. В данной работе представлена система UMI-3D: Extending Universal Manipulation Interface from Vision-Limited to 3D Spatial Perception, расширяющая универсальный интерфейс манипуляций (UMI) за счет интеграции LiDAR-сенсора для создания надежных и геометрически согласованных данных. Предложенный подход позволяет значительно повысить качество собираемых данных и, как следствие, улучшить производительность манипуляционных политик, включая сложные задачи, недоступные для систем, основанных только на визуальном восприятии. Какие перспективы открываются для создания более гибких и адаптивных роботов благодаря использованию мультимодальных систем восприятия и масштабируемого сбора данных?


Постижение Пространства: Необходимость Надежной Оценки Состояния

Эффективная автономность роботов требует точного восприятия окружающей среды, однако традиционные методы часто оказываются неэффективными в динамичных и сложных ситуациях. Существующие алгоритмы, как правило, испытывают трудности при обработке неполных или зашумленных данных, а также при быстром изменении условий освещения или появлении новых объектов. Это приводит к ошибкам в определении местоположения робота и в понимании окружающего пространства, что негативно сказывается на его способности успешно выполнять поставленные задачи. Разработка систем, способных к адаптации к изменяющимся условиям и устойчивой работе в условиях неопределенности, является ключевой задачей для создания действительно автономных роботов, способных функционировать в реальном мире.

Надежная оценка состояния — определение местоположения робота и понимание окружающей среды — является основополагающим принципом в развитии воплощенного интеллекта. От точности этой оценки напрямую зависит способность робота эффективно взаимодействовать с миром, планировать действия и адаптироваться к изменяющимся условиям. По сути, это своего рода «сенсорное восприятие» робота, позволяющее ему создавать внутреннюю модель окружения и прогнозировать последствия своих действий. Без достоверной информации о собственном положении и окружающих объектах, даже самые сложные алгоритмы планирования и управления становятся неэффективными, а робот неспособен к автономной деятельности в реальных, непредсказуемых условиях. Поэтому развитие методов надежной оценки состояния представляет собой ключевую проблему, определяющую прогресс в области робототехники и искусственного интеллекта.

Существующие методы оценки состояния робота, необходимые для автономной навигации и взаимодействия с окружающим миром, зачастую демонстрируют ограниченную эффективность при переходе к реальным, сложным условиям. Проблемы возникают из-за непредсказуемости окружающей среды, динамически меняющихся объектов и необходимости обработки больших объемов сенсорных данных. Вследствие этого, возникает потребность в разработке более устойчивых и адаптивных алгоритмов, способных эффективно функционировать в условиях неопределенности и шума. Исследования направлены на создание систем, способных не только точно определять положение и ориентацию робота, но и предсказывать поведение окружающих объектов, позволяя принимать обоснованные решения в режиме реального времени и избегать потенциальных столкновений или ошибок. Такие решения подразумевают интеграцию различных сенсорных модальностей, использование алгоритмов машинного обучения и разработку новых методов фильтрации и обработки данных.

В сложных реальных условиях, включая текстурированные поверхности, динамические деформации и окклюзии, UMI-3D обеспечивает стабильное и точное построение карты и оценку положения, превосходя системы SLAM, основанные только на визуальных данных.
В сложных реальных условиях, включая текстурированные поверхности, динамические деформации и окклюзии, UMI-3D обеспечивает стабильное и точное построение карты и оценку положения, превосходя системы SLAM, основанные только на визуальных данных.

UMI-3D: Платформа для Сбора Высококачественных Данных о Роботе

Система UMI-3D предоставляет возможность сбора данных непосредственно с точки зрения робота, что значительно упрощает процесс обучения. В отличие от традиционных методов, требующих внешних сенсоров и последующей привязки данных к перспективе робота, UMI-3D интегрирует сенсоры непосредственно на платформу робота, обеспечивая точную синхронизацию и соответствие данных фактическому восприятию робота. Это позволяет собирать данные, которые более точно отражают реальные условия эксплуатации, что критически важно для обучения надежных и эффективных алгоритмов управления и восприятия. Гибкость системы заключается в возможности ее установки на различные типы роботов и настройки параметров сбора данных в соответствии с конкретной задачей обучения.

Система UMI-3D объединяет данные лидара и визуальные данные для получения более полного представления об окружающей среде. Лидар обеспечивает точные данные о глубине и геометрии объектов, что особенно важно в условиях низкой освещенности или при наличии отражающих поверхностей, где визуальные датчики могут работать некорректно. Визуальные данные, в свою очередь, предоставляют информацию о текстуре и цвете объектов, что необходимо для семантической интерпретации сцены. Комбинирование этих модальностей позволяет преодолеть ограничения, присущие каждому отдельному сенсору, и создать более надежную и информативную модель окружения, необходимую для эффективной работы робота в различных условиях.

Подход, ориентированный на данные, реализованный в UMI-3D, позволяет создавать более устойчивые и обобщенные алгоритмы управления роботами для различных задач. Акцент на сборе и использовании высококачественных данных, полученных непосредственно от робота, позволяет алгоритмам машинного обучения лучше адаптироваться к новым условиям и сценариям. Вместо жесткого программирования поведения, система учится на реальных данных, что повышает ее надежность и способность к обобщению на различные типы задач и окружения. Такой подход снижает зависимость от ручной настройки и позволяет роботам функционировать в более широком спектре условий, что особенно важно для сложных и непредсказуемых сред.

Система UMI-3D LiDAR-инерциальной одометрии, основанная на итерированном фильтре Калмана для оценок состояния на дифференцируемых многообразиях, обеспечивает надежную оценку состояния и построение согласованной геометрической карты в реальных условиях благодаря тесной интеграции измерений IMU и сканов LiDAR, обрабатываемых с использованием рекомбинации сканов и вычисления остатков относительно воксельной карты, и последующего преобразования в позу камеры через откалиброванную внешнюю трансформацию <span class="katex-eq" data-katex-display="false">\mathbf{T}_{C}^{L}</span>.
Система UMI-3D LiDAR-инерциальной одометрии, основанная на итерированном фильтре Калмана для оценок состояния на дифференцируемых многообразиях, обеспечивает надежную оценку состояния и построение согласованной геометрической карты в реальных условиях благодаря тесной интеграции измерений IMU и сканов LiDAR, обрабатываемых с использованием рекомбинации сканов и вычисления остатков относительно воксельной карты, и последующего преобразования в позу камеры через откалиброванную внешнюю трансформацию \mathbf{T}_{C}^{L}.

Диффузионные Политики: Обучение Сложным Поведениям на Основе Богатых Данных

Диффузионные политики представляют собой перспективный подход в обучении роботов, позволяющий генерировать разнообразные и сложные поведенческие паттерны. В отличие от традиционных методов, основанных на детерминированных траекториях, диффузионные политики моделируют процесс обучения как постепенное добавление шума к оптимальным действиям, а затем их восстановление. Такой подход позволяет роботу исследовать широкий спектр возможных действий и адаптироваться к различным ситуациям, что особенно важно при решении задач, требующих высокой степени гибкости и способности к обобщению. Использование диффузионных моделей позволяет эффективно использовать большие объемы данных, полученных от реальных взаимодействий робота с окружающей средой, и, как демонстрируется в наших исследованиях, значительно превосходить по производительности традиционные методы обучения с подкреплением.

В ходе экспериментов с использованием датасета UMI-3D было продемонстрировано значительное улучшение производительности политики по сравнению с традиционными подходами. В частности, при задаче расположения чашек с использованием ранее виденных объектов, достигнут нормализованный показатель в 0.863. Данный результат указывает на эффективность предложенного метода в обучении робота выполнению сложных манипуляций, основанных на визуальных данных и обратной связи от датчиков.

Для повышения эффективности системы используется DINOv2 для извлечения визуальных признаков, что позволяет более точно интерпретировать данные с камер. В сочетании с использованием CAN-шины для обеспечения надежной связи между компонентами робота, это обеспечивает стабильную и предсказуемую работу системы в различных условиях. CAN-шина гарантирует своевременную и безошибочную передачу данных, критически важных для координации движений и выполнения задач, а DINOv2 обеспечивает робастную обработку визуальной информации даже при изменениях освещения и угла обзора.

Эксперименты показали, что разработанная система демонстрирует устойчивое снижение производительности при работе с частично неизвестными объектами, достигая нормализованного результата 0.788. При полной новизне объектов система сохраняет приемлемый уровень работы, обеспечивая нормализованный результат 0.736. Данные результаты свидетельствуют о высокой степени обобщающей способности модели и ее способности адаптироваться к новым, ранее не встречавшимся сценариям, что является важным фактором для практического применения робототехнических систем в реальных условиях.

Система продемонстрировала высокую эффективность при выполнении задач по взаимодействию с окружающей средой. При выполнении задачи по открыванию и закрыванию штор, нормализованный показатель эффективности составил 0.88-0.96. Кроме того, система достигла успеха в 97.5% случаев при открывании дверей, что подтверждает её надежность и способность к выполнению сложных манипуляций в реальных условиях. Данные показатели являются результатом интеграции алгоритмов диффузии и использования высококачественных данных для обучения.

Политика в UMI-3D использует синхронизированные мультимодальные наблюдения (RGB-изображения, относительные позы и состояние захвата) для предсказания траекторий движения манипулятора в системе координат текущей позиции, реализуя управление на основе рекуррентного горизонтального планирования и временного усреднения.
Политика в UMI-3D использует синхронизированные мультимодальные наблюдения (RGB-изображения, относительные позы и состояние захвата) для предсказания траекторий движения манипулятора в системе координат текущей позиции, реализуя управление на основе рекуррентного горизонтального планирования и временного усреднения.

Масштабирование Обучения Роботов: Сила Данных и Воплощенного Интеллекта

Исследования подтверждают, что в области обучения роботов действуют закономерности масштабирования данных: с увеличением объема обучающих данных последовательно повышается эффективность работы алгоритмов управления. Наблюдается устойчивая тенденция, когда более обширные наборы данных позволяют роботам демонстрировать улучшенные показатели в выполнении различных задач, от простых манипуляций до сложных навигационных сценариев. Это указывает на то, что, подобно многим другим областям машинного обучения, производительность роботов напрямую связана с количеством и качеством предоставляемых им данных, что открывает перспективы для создания более компетентных и адаптивных робототехнических систем.

Платформа UMI-3D, в сочетании с диффузионными политиками, открывает новые возможности для создания роботов, способных к обучению и адаптации в сложных условиях. Данная комбинация позволяет генерировать разнообразные и реалистичные сценарии взаимодействия робота с окружающей средой, значительно расширяя возможности обучения с подкреплением. Благодаря UMI-3D, роботы могут тренироваться в виртуальной среде, имитирующей реальные физические законы и визуальные характеристики, что обеспечивает более эффективный и безопасный процесс обучения. Использование диффузионных политик позволяет роботам не просто запоминать оптимальные действия, но и обобщать полученные знания, что критически важно для успешной работы в непредсказуемых ситуациях и новых средах. Такой подход приближает создание действительно воплощенного интеллекта, где роботы способны беспрепятственно взаимодействовать с физическим миром и решать широкий спектр задач.

Исследования показали высокую эффективность переноса обученной политики с симулятора UMI в более сложную платформу UMI-3D. Достигнутый нормализованный показатель, варьирующийся от 0.73 до 1.00, демонстрирует, что робот, обученный в относительно простой среде, способен успешно адаптироваться и выполнять задачи в более реалистичных и сложных условиях. Этот результат подтверждает возможность создания универсальных робототехнических систем, способных к эффективному обучению и последующему применению полученных навыков в различных физических средах, что является важным шагом на пути к развитию действительно воплощенного интеллекта.

Развитие представленного подхода открывает новые перспективы в создании действительно воплощенного интеллекта, позволяя роботам беспрепятственно взаимодействовать с физическим миром. Реализация масштабного обучения, подкрепленная платформой UMI-3D и диффузионными политиками, способствует формированию адаптивных систем, способных к эффективной работе в сложных, непредсказуемых условиях. Возможность переноса обученных стратегий и точная оценка состояния окружающей среды, обеспечиваемая ESIKF, являются ключевыми элементами, приближающими роботов к способности к самостоятельному обучению и взаимодействию с реальным миром, что является важным шагом к созданию по-настоящему интеллектуальных машин.

В рамках платформы UMI-3D, точная оценка состояния робота является критически важной для успешного обучения и адаптации к сложным условиям. Для обеспечения этой точности используется расширенный фильтр Калмана (ESIKF). Данный фильтр позволяет эффективно обрабатывать шумные данные, поступающие от сенсоров, и получать надежную информацию о положении и ориентации робота в пространстве. ESIKF, в отличие от стандартных методов, способен учитывать неопределенности в модели динамики системы, что особенно важно при работе с реальными роботами, подверженными внешним воздействиям и погрешностям. Использование ESIKF в UMI-3D не только повышает стабильность обучения, но и позволяет роботу более эффективно планировать свои действия и избегать столкновений, приближая его к реализации принципов воплощенного интеллекта.

Обученные в симуляции UMI политики успешно переносятся на реальную платформу UMI-3D без дополнительной настройки, демонстрируя обобщающую способность и эффективное выполнение задач захвата и размещения в различных условиях, что подтверждается количественными результатами по <span class="katex-eq" data-katex-display="false">4 \times 4</span> комбинациям мышь-коврик.
Обученные в симуляции UMI политики успешно переносятся на реальную платформу UMI-3D без дополнительной настройки, демонстрируя обобщающую способность и эффективное выполнение задач захвата и размещения в различных условиях, что подтверждается количественными результатами по 4 \times 4 комбинациям мышь-коврик.

Без точного определения задачи любое решение — шум. Данная работа демонстрирует эту истину на примере робототехники. Авторы UMI-3D осознали, что полагаться исключительно на зрение для манипуляций в трёхмерном пространстве — значит работать с неполными и часто искаженными данными. Внедрение LiDAR-центричного SLAM позволяет получить геометрически точную и надежную информацию об окружении, что критически важно для обучения эффективных манипуляционных политик. Как заметил Дональд Дэвис: «Любой дурак может написать код, который компьютер понимает. Истинный талант заключается в написании кода, который люди понимают». В контексте UMI-3D, это означает, что даже самый сложный алгоритм бесполезен, если он не опирается на чёткое и однозначное представление о задаче и её ограничениях.

Куда же дальше?

Представленная работа, безусловно, демонстрирует преимущество геометрической согласованности данных, полученных с помощью LiDAR, перед исключительно визуальными подходами. Однако, стоит признать, что переход к трёхмерному восприятию не решает всех проблем. Иллюзия надежности, порождаемая точными геометрическими измерениями, может заслонить более глубокие вопросы о представлении знаний и обобщении. Если алгоритм работает лишь потому, что «видит» мир чётко, а не понимает его структуру, то это, скорее, инженерный трюк, нежели истинное интеллектуальное достижение.

Следующим шагом представляется не просто увеличение объёма данных, а разработка методов, позволяющих извлекать из них инварианты — фундаментальные свойства, не зависящие от конкретной реализации сцены. Если решение кажется магией — значит, инвариант не раскрыт. Необходимо отойти от наивного накопления примеров и перейти к построению систем, способных к логическому выводу и абстракции.

В конечном итоге, задача состоит не в том, чтобы «накормить» робота данными, а в том, чтобы научить его думать. И хотя LiDAR, несомненно, является полезным инструментом, он лишь облегчает сбор информации, но не заменяет необходимость в формальном представлении знаний и алгоритмах, способных к их эффективному использованию.


Оригинал статьи: https://arxiv.org/pdf/2604.14089.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-16 06:19