Робот-подражатель: Обучение манипулированию деформируемыми объектами на ощупь и по видео

Автор: Денис Аветисян

Новый подход к обучению роботов позволяет им эффективно повторять сложные манипуляции с мягкими и гибкими объектами, используя одновременную обработку визуальной и тактильной информации.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Роботизированная рука ABB YuMi демонстрирует способность отслеживать и разгибать одномерные и двухмерные деформируемые объекты, скользя захватом по их поверхности и преобразуя исходно неупорядоченные конфигурации в развёрнутое состояние.

Представлен метод имитационного обучения с применением трансформера для разделения действий, обеспечивающий высокую точность отслеживания деформируемых объектов в одномерном и двумерном пространстве.

Несмотря на прогресс в области манипулирования объектами, отслеживание деформируемых объектов в неструктурированной среде остается сложной задачей, требующей адаптивности и точности. В данной работе, ‘ViTac-Tracing: Visual-Tactile Imitation Learning of Deformable Object Tracing’, предлагается новый подход к обучению с подражанием, объединяющий визуальную и тактильную информацию для эффективного отслеживания деформируемых объектов как в одном, так и в двух измерениях. Предложенный метод, использующий трансформатор для сегментации действий, демонстрирует высокую эффективность, достигая 80% успешных попыток на знакомых объектах и 65% на ранее невиданных. Позволит ли дальнейшее развитие мультисенсорного обучения с подражанием создать роботов, способных к более сложным и гибким манипуляциям с деформируемыми объектами в реальном мире?

Трудности манипулирования деформируемыми объектами

Традиционные методы роботизированной манипуляции испытывают значительные трудности при работе с деформируемыми объектами, такими как ткани, кабели или биологические ткани. Причина кроется в бесконечном количестве степеней свободы, присущих этим объектам, что делает предсказание их поведения крайне сложным. В отличие от жестких тел, положение и ориентация деформируемого объекта не определяются небольшим количеством параметров, а зависят от непрерывного распределения его формы. Это означает, что даже незначительное внешнее воздействие может вызвать сложные и непредсказуемые деформации, требующие от робота постоянной адаптации и высокой точности управления. Неспособность учесть эту сложность часто приводит к неустойчивости системы, ошибкам в захвате и манипулировании, а также к потенциальному повреждению как объекта, так и самого робота.

Успешное отслеживание деформируемых объектов требует принципиально иного подхода к управлению, нежели при работе с жесткими телами. Традиционные алгоритмы, основанные на предположении о фиксированной форме и структуре, оказываются неэффективными, поскольку деформируемые объекты обладают бесконечным числом степеней свободы и непредсказуемо меняют свою конфигурацию. Для точного отслеживания необходимо учитывать внутренние деформации, упругие свойства материала и взаимодействие объекта с окружающей средой. Современные исследования направлены на разработку алгоритмов, способных адаптироваться к изменяющейся геометрии объекта в реальном времени, используя сенсорные данные и моделирование деформаций, что позволяет роботу не просто следовать за объектом, но и предвидеть его поведение и корректировать траекторию движения.

Существующие методы манипулирования деформируемыми объектами часто сталкиваются с нежелательными последствиями, такими как падение предмета, столкновения робота с окружающей средой или неточное отслеживание траектории. Это обусловлено сложностью прогнозирования поведения мягких тел, которые, в отличие от жестких объектов, не имеют фиксированной формы и подвержены значительным деформациям под воздействием даже небольших сил. В результате, даже тщательно запрограммированные движения робота могут привести к потере контроля над объектом, требуя немедленной остановки и повторной корректировки траектории, что снижает эффективность и надежность всего процесса манипулирования. Неточное отслеживание, в свою очередь, может привести к повреждению самого объекта или окружающих его предметов, что делает задачу манипулирования деформируемыми объектами особенно сложной и требующей разработки принципиально новых подходов.

Предложенная схема обучения политике трассировки использует кинематику робота <span class="katex-eq" data-katex-display="false">K_t</span>, визуальные и тактильные изображения <span class="katex-eq" data-katex-display="false">V_t</span> и <span class="katex-eq" data-katex-display="false">T_t</span> от робота-последователя для обучения политике на основе Transformer, используя последовательность действий <span class="katex-eq" data-katex-display="false">a_{t:t+k}</span> от робота-лидера и оптимизируя функцию потерь, состоящую из локальной, глобальной и регуляризационной составляющих. — Предложенная схема обучения политике трассировки использует кинематику робота $K_t$ , визуальные и тактильные изображения $V_t$ и $T_t$ от робота-последователя для обучения политике на основе Transformer, используя последовательность действий $a_{t:t+k}$ от робота-лидера и оптимизируя функцию потерь, состоящую из локальной, глобальной и регуляризационной составляющих.

Обучение робота с использованием демонстраций и визуально-тактильной обратной связи

В основе обучения робота используется имитационное обучение, позволяющее ему осваивать задачу обведения путем воспроизведения действий эксперта. Этот подход предполагает, что робот анализирует демонстрации, предоставленные человеком-оператором, и стремится повторить наблюдаемые последовательности действий. В процессе обучения робот сопоставляет сенсорные данные, полученные во время демонстрации, с соответствующими управляющими сигналами, формируя модель, описывающую связь между восприятием и действиями. Использование демонстраций позволяет роботу быстро освоить сложную задачу, избегая необходимости длительного и дорогостоящего обучения методом проб и ошибок. В данном контексте, имитационное обучение является ключевым компонентом системы, обеспечивающим эффективное и надежное выполнение задачи обведения.

В процессе сбора демонстрационных данных используется система визуально-тактильной телеоперации, обеспечивающая получение богатого сенсорного ввода. Данная система объединяет визуальную информацию, получаемую с камеры, и тактильные данные, регистрируемые с помощью сенсоров, установленных на манипуляторе робота. Совместное использование этих модальностей позволяет оператору эффективно демонстрировать задачу прослеживания, а системе — регистрировать не только траекторию движения, но и информацию о силе контакта и текстуре поверхности объекта. Полученные данные формируют обучающую выборку, включающую как визуальные образы, так и тактильные ощущения, что необходимо для обучения надежных стратегий управления.

Для создания обучающего набора данных, демонстрирующего успешное выполнение задачи обводки, используется система визуально-тактильной телеоперации. Эта система позволяет собирать данные, отражающие тонкости и нюансы процесса, включая вариации в силе нажатия, скорости движения и адаптацию к различным характеристикам объекта. Собранный набор данных содержит записи успешных траекторий обводки, что обеспечивает обучение модели устойчивым стратегиям управления и позволяет ей адаптироваться к незначительным изменениям в форме и текстуре обводимого объекта, а также к различным стилям выполнения задачи.

Использование как визуальной, так и тактильной обратной связи позволяет обученной политике (управляющей стратегии) формировать устойчивые алгоритмы управления, применимые к объектам с различными характеристиками поверхности и формой. Визуальная информация обеспечивает общее понимание геометрии объекта и траектории, в то время как тактильная обратная связь предоставляет данные о силе контакта, текстуре и микроскопических особенностях поверхности. Комбинирование этих двух типов данных позволяет политике адаптироваться к вариациям в материале, шероховатости и форме объекта, обеспечивая надежное выполнение задачи трассировки даже при изменениях в свойствах осязаемого объекта. Это повышает общую надежность и универсальность роботизированной системы.

Система визуально-тактильного телеуправления позволяет оператору собирать демонстрации, используя камеру сверху и тактильный датчик на манипуляторе-последователе, а также визуальную и тактильную обратную связь через вибромоторы на манипуляторе-лидере.

Уточнение политики с помощью целевых функций потерь

В рамках обучения с подражанием предложены два дополнительных компонента функции потерь: Center Loss и Task Loss. Center Loss направлен на повышение точности управления путем поощрения политики к выбору действий, центрирующих объект в тактильном изображении, что улучшает использование тактильной обратной связи. Task Loss, в свою очередь, регулирует прогресс выполнения задачи, предсказывая индекс завершения, тем самым направляя робота к концу трассировки. Комбинация этих функций потерь позволяет более эффективно обучать политику, сочетая точность управления и достижение цели.

Функция потерь Center Loss направлена на повышение эффективности использования тактильной обратной связи путем стимулирования политики к выбору действий, центрирующих объект в тактильном изображении. Это достигается путем минимизации расстояния между тактильными представлениями объекта и целевым центром изображения. В процессе обучения, политика штрафуется за действия, приводящие к отклонению объекта от центра, что способствует формированию более точной и устойчивой стратегии управления, ориентированной на поддержание центрального положения объекта в тактильном восприятии робота.

Функция потерь для отслеживания прогресса задачи (Task Loss) используется для прогнозирования индекса завершения трассировки, что позволяет направлять робота к концу выполнения задания. Данный подход предполагает, что на каждом шаге обучения модель предсказывает, насколько близко робот подошел к завершению трассировки, основываясь на текущем состоянии системы. Минимизация разницы между предсказанным и фактическим индексом завершения обеспечивает более плавный и эффективный процесс обучения, поскольку модель активно стремится к достижению конечной цели задачи. Использование индекса завершения в качестве целевой переменной позволяет функции потерь эффективно регулировать скорость и точность выполнения трассировки.

Для повышения выразительности политики управления используется Action Chunking Transformer, обрабатывающий текущее состояние робота, представленное углами поворота суставов и положением концевого эффектора. Этот Transformer предсказывает последовательности действий, позволяя политике генерировать более сложные и скоординированные движения. Вместо предсказания отдельных действий, модель предсказывает «чанки» действий, что позволяет ей учитывать временные зависимости и контекст, улучшая качество управления и повышая эффективность выполнения задачи.

Тактильные изображения демонстрируют, что текстуры деформируемых объектов, как одномерных, так и двухмерных с подвернутыми краями, схожи между собой, что указывает на обобщающую способность системы распознавания текстур.

Обобщение при работе с различными типами деформируемых объектов

Предложенный подход демонстрирует успешное отслеживание как одномерных, так и двумерных деформируемых объектов, что подчеркивает его универсальность. Метод способен адаптироваться к различной геометрии и динамике деформации, обеспечивая стабильное и точное слежение даже при сложных изменениях формы. Эта способность к обобщению позволяет применять разработанный алгоритм к широкому спектру задач, от автоматизированной сборки и роботизированной хирургии до систем помощи людям с ограниченными возможностями, где требуется надежное отслеживание объектов различной формы и гибкости.

Разработанная политика продемонстрировала устойчивость к типичным ошибкам при отслеживании деформируемых объектов. В отличие от многих существующих подходов, система эффективно избегает чрезмерного прослеживания контура за пределы объекта, преждевременной остановки процесса отслеживания и нежелательных столкновений с самой деформируемой структурой. Это достигается за счет тщательно разработанной функции потерь и обучения на примерах экспертных демонстраций, что позволяет политике адаптироваться к различным формам и деформациям, обеспечивая надежное и точное отслеживание даже в сложных сценариях. Отсутствие этих распространенных ошибок значительно повышает практическую применимость системы в таких областях, как автоматизированная сборка и роботизированная хирургия.

Представленный метод продемонстрировал высокую способность к обобщению, достигнув 80% успешных прохождений для объектов, с которыми система ранее сталкивалась, и впечатляющие 65% для совершенно новых, ранее не виденных объектов. Такой результат указывает на то, что алгоритм не просто запоминает конкретные траектории, а действительно учится принципам отслеживания деформируемых объектов, что позволяет ему адаптироваться к новым ситуациям и формам. Это значительно повышает практическую ценность разработки, делая её применимой в широком спектре задач, где требуется надежное и гибкое отслеживание объектов сложной формы.

Для обеспечения устойчивого и адаптивного поведения разработанный подход опирается на обучение с использованием демонстраций экспертов. Политика агента формируется путем анализа примеров оптимального выполнения задачи, что позволяет быстро освоить сложные маневры и стратегии. Далее, для тонкой настройки и повышения надежности, применяются целевые функции потерь, которые фокусируются на критических аспектах трассировки, таких как минимизация ошибок и предотвращение столкновений. Этот процесс позволяет не только достичь высокой точности на известных объектах, но и значительно улучшить способность к обобщению на ранее не встречавшихся деформируемых объектах, открывая перспективы для применения в автоматизированной сборке, хирургической робототехнике и вспомогательных технологиях.

Разработанная методика, демонстрирующая успешное отслеживание деформируемых объектов, открывает широкие перспективы для применения в различных областях. В частности, автоматизированная сборка, где точность и адаптивность к изменяющейся форме деталей критически важны, может быть значительно улучшена благодаря данной технологии. Не менее перспективным является применение в хирургической робототехнике, позволяющее выполнять сложные манипуляции с тканями и органами с повышенной точностью и минимальным риском. Кроме того, разработанная система может стать основой для создания передовых вспомогательных технологий, облегчающих повседневную жизнь людям с ограниченными возможностями, например, в системах помощи при одевании или приеме пищи, требующих адаптации к различным формам и текстурам предметов.

Обучение и тестирование моделей проводилось на деформируемых объектах как из известной, так и из новой категорий, при этом для каждого объекта из известной категории было собрано 25 демонстраций.

Работа над системами манипулирования деформируемыми объектами неизменно напоминает о неизбежном. Авторы предлагают подход, основанный на имитационном обучении с использованием визуально-тактильной информации и трансформером для разбиения действий. Это, конечно, элегантно, но рано или поздно любой алгоритм столкнётся с реальностью — с непредсказуемостью материала, с погрешностями датчиков, с желанием пользователя сделать что-то, что не предусмотрено ни одним сценарием. Кен Томпсон однажды заметил: «Разработка программного обеспечения — это просто создание нового способа, которым вещи могут выйти из строя». И это, пожалуй, самое точное описание ситуации. Успех в обучении робота обходить препятствия в одном измерении или прослеживать контур в двух — лишь отсрочка неизбежного, а не решение проблемы. В конечном счёте, система всё равно найдёт способ показать, где её слабое место.

Что дальше?

Представленный подход к имитационному обучению, использующий визуально-тактильные данные для манипулирования деформируемыми объектами, выглядит многообещающе. Однако, стоит помнить: успешное выполнение задач на демонстрационных образцах — это лишь первый шаг. Реальный мир полон неопределённостей, неидеальных датчиков и объектов, поведение которых отличается от модельных. Вполне вероятно, что каждое новое усложнение архитектуры, каждая новая «революционная» трансформация, лишь увеличит технический долг, который предстоит расплачивать в процессе эксплуатации.

Наиболее вероятным направлением развития видится не столько усложнение алгоритмов, сколько фокусировка на robustness. Необходимо учитывать, что «идеальная» траектория, полученная в симуляции, может оказаться неприменимой на практике. Ключевым станет развитие алгоритмов, способных адаптироваться к изменениям в окружающей среде, компенсировать погрешности датчиков и эффективно восстанавливаться после сбоев. Если код выглядит идеально — значит, его ещё никто не развернул в продакшене.

Стоит также помнить о масштабируемости. Успешное манипулирование одномерными и двухмерными объектами — это хорошо. Но что произойдёт, когда робот столкнётся с более сложными, трёхмерными, деформируемыми объектами, требующими более тонкой моторики и координации? Скорее всего, придётся начинать всё сначала, оптимизируя архитектуру и переобучая модель. В конечном итоге, главное — это не создать «идеального» робота, а создать робота, который может выполнять свою работу достаточно хорошо, чтобы оправдать затраты на его разработку и обслуживание.

Оригинал статьи: https://arxiv.org/pdf/2603.18784.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-20 17:57