Роботы учатся «чувствовать»: новая система для точной сборки

Автор: Денис Аветисян

Исследователи разработали инновационный подход к обучению роботов манипулированию объектами, объединяя зрение и тактильные ощущения для повышения точности и надежности сборки.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Представлена система ReTac-ACT, политика, объединяющая зрение и тактильную обратную связь на основе трансформеров и метода Action Chunking, демонстрирующая передовые результаты в задаче сборки «штифт в отверстие» на бенчмарке NIST ATB M1 от ManipulationNet — достигая 90% успеха при зазоре в 3 мм и сохраняя 80% при промышленном зазоре в 0.1 мм, недостижимом для систем, полагающихся исключительно на зрение, благодаря механизму условного включения проприоцепции и дополнительному обучению реконструкции тактильных ощущений.

Представлена ReTac-ACT — архитектура на основе трансформера, объединяющая визуальную и тактильную информацию для значительного улучшения успешности операций точной сборки, продемонстрировавшая передовые результаты на NIST ATB M1.

Высокоточная сборка роботов затруднена в «последнем миллиметре» из-за окклюзий и ограничений визуального контроля. В данной работе представлена система ReTac-ACT: A State-Gated Vision-Tactile Fusion Transformer for Precision Assembly, использующая синергичное слияние визуальной и тактильной информации для решения этой проблемы. Предложенный подход демонстрирует значительное улучшение точности сборки, достигая 90% успеха в задаче соединения отверстий на стандартном бенчмарке NIST ATB M1 и сохраняя 80% при малом зазоре в 0.1 мм. Сможет ли дальнейшее развитие мультисенсорного управления роботами полностью автоматизировать сложные процессы сборки в условиях реального производства?

Преодолевая Препятствия Прецизионной Сборки

Традиционные роботизированные системы сборки часто испытывают трудности при выполнении задач, требующих высокой точности, таких как соединение шипа и отверстия. Проблема заключается в сложности обеспечения необходимого контроля над мелкими движениями и точным позиционированием деталей. Несмотря на значительный прогресс в области робототехники, достижение надежной и повторяемой сборки на микроуровне остается сложной задачей. Это связано с ограничениями в точности приводов, сложностью моделирования сил трения и деформации материалов, а также с необходимостью компенсации небольших неточностей в геометрии деталей. В результате, даже незначительные отклонения могут привести к неудачам сборки, требующим ручной коррекции или полной замены дефектных компонентов.

Современные методы роботизированной сборки часто полагаются на визуальное восприятие окружающей среды, однако такая зависимость оказывается ненадежной в динамичных или загроможденных условиях. Неточности в распознавании объектов, вызванные недостаточным освещением, отражениями или частичной видимостью, приводят к ошибкам позиционирования и, как следствие, к неудачным попыткам сборки. В ситуациях, когда компоненты находятся в тесном контакте или окружены другими предметами, визуальный анализ становится особенно сложным и подверженным искажениям. Это ограничивает возможности роботов в выполнении деликатных операций, требующих высокой точности и адаптивности к изменяющейся обстановке, и подчеркивает необходимость разработки альтернативных сенсорных систем, не зависящих от качества визуальной информации.

Эффективное манипулирование объектами, особенно в задачах высокой точности, требует не только визуального контроля, но и надетной обратной связи, выходящей за его пределы. Исследования показывают, что полагаться исключительно на зрение недостаточно, поскольку это делает систему уязвимой к изменениям освещения, заслонению и неточностям в распознавании объектов. Понимание тактильного контакта, то есть способности точно определять силу, направление и форму прикосновения, становится ключевым фактором. Именно точное восприятие контакта позволяет роботу адаптироваться к непредсказуемым ситуациям, корректировать свои движения и успешно выполнять сложные задачи, такие как сборка деталей с минимальными зазорами или работа с деликатными материалами. Разработка сенсоров и алгоритмов, способных обеспечивать детальное и своевременное представление о контакте, открывает новые возможности для автоматизации и повышения эффективности промышленных процессов.

Представленная аппаратная конфигурация обеспечивает работу бимануальной системы точной сборки, объединяющей возможности зрения и тактильных датчиков.

ReTac-ACT: Интегрированная Политика Зрения и Тактильных Ощущений

ReTac-ACT представляет собой новую политику, объединяющую зрение и тактильные ощущения, разработанную на основе метода Action Chunking with Transformers (ACT). В отличие от существующих подходов, ReTac-ACT обеспечивает непосредственную обработку тактильных данных, что позволяет роботу использовать информацию от тактильных датчиков в процессе принятия решений. Это достигается за счет интеграции тактильных сигналов непосредственно в архитектуру Transformer, что позволяет эффективно использовать их для управления манипуляциями и повышения надежности работы, особенно в условиях ограниченной визуальной информации. В результате, ReTac-ACT обеспечивает более гибкое и адаптивное управление роботом в сложных условиях.

Политика ReTac-ACT использует кросс-модальное слияние для объединения визуальной и тактильной информации, что позволяет обеспечить надежную манипуляцию даже при ограниченном визуальном восприятии. Данный подход предполагает интеграцию данных, полученных от визуальных сенсоров и тактильных датчиков, для создания более полной картины окружающей среды и состояния объекта манипуляции. В ситуациях, когда визуальная информация неполна или зашумлена, тактильная обратная связь позволяет роботу компенсировать недостаток визуальных данных и поддерживать стабильное управление. Эффективное объединение модальностей повышает устойчивость системы к помехам и позволяет успешно выполнять задачи манипулирования в сложных условиях.

Ключевым компонентом ReTac-ACT является механизм динамического слияния с управлением состоянием (State-Gated Dynamic Fusion). Данный механизм адаптирует веса визуального и тактильного каналов информации на основе проприоцептивного состояния робота — информации о положении и ориентации его конечностей и суставов. Это позволяет системе автоматически переключаться между преобладающим использованием визуальной информации в условиях хорошей видимости и повышенной зависимостью от тактильных ощущений при ограниченной или отсутствующей визуальной информации, оптимизируя общую надежность и точность манипуляций.

Архитектура ReTac-ACT объединяет визуальную информацию с 3 RGB-камер и тактильные данные с 4 датчиков (по одному на кончик каждого из двух пальцев манипулятора) посредством динамического кросс-модального объединения с использованием сети на основе проприоцепции, что позволяет предсказывать последовательности действий для 14 степеней свободы двуручного манипулятора и 2 команд управления захватом, используя CVAE-трансформер декодер.

Улучшение Тактильного Восприятия посредством Обучения

Для улучшения представления тактильной информации используется задача реконструкции тактильных ощущений (Tactile Reconstruction) в качестве вспомогательной цели обучения. Данная задача выполняет роль регуляризации для тактильного энкодера, стимулируя его к захвату мелкозернистой геометрии контакта. Это достигается путем обучения энкодера реконструировать входные тактильные данные из закодированного представления, что заставляет его сохранять и использовать информацию о деталях контакта, включая форму, положение и давление. Регуляризация способствует повышению точности и детализации тактильного представления, необходимого для эффективного восприятия объектов и манипулирования ими.

Для выравнивания визуального и тактильного пространств признаков используется функция потерь InfoNCE. InfoNCE (Noise Contrastive Estimation) позволяет максимизировать взаимную информацию между визуальными и тактильными представлениями, рассматривая положительные пары (соответствующие визуальные и тактильные данные для одного и того же объекта) и отрицательные пары (несоответствующие данные). Функция потерь $L_{InfoNCE}$ стремится минимизировать расстояние между положительными парами и максимизировать расстояние между отрицательными, тем самым способствуя формированию единого представления об окружающей среде, где визуальная и тактильная информация коррелируют.

Двунаправленный механизм кросс-внимания (Bidirectional Cross-Attention) обеспечивает взаимное усиление признаков между визуальными и тактильными токенами, что улучшает обмен информацией между модальностями. Этот механизм позволяет каждому типу токенов (визуальным и тактильным) использовать информацию из другого типа, повышая релевантность и точность представления данных. В частности, он обрабатывает как визуальные токены, учитывая тактильные признаки, так и тактильные токены, учитывая визуальные признаки, что позволяет создать более полное и интегрированное представление об окружающей среде. Реализация этого механизма позволяет эффективно обмениваться информацией между визуальными и тактильными каналами, улучшая общую производительность системы в задачах, требующих мультисенсорной интеграции.

Обучение тактильного представления с использованием вспомогательной реконструкции позволяет модели захватывать мелкозернистую геометрию контакта и предотвращать коллапс признаков, заставляя её восстанавливать исходные тактильные данные из изученных латентных токенов.

Валидация и Сравнение на Платформе NIST ATB M1

Система ReTac-ACT была тщательно протестирована на платформе NIST ATB M1 — открытом исходном коде, предназначенном для оценки точности выполнения задач по сборке. Данный стенд позволяет проводить стандартизированные испытания алгоритмов управления роботами в условиях, имитирующих реальные производственные процессы. Использование NIST ATB M1 обеспечивает объективную и воспроизводимую оценку эффективности ReTac-ACT в задачах прецизионной сборки, что крайне важно для сравнения с другими существующими методами и демонстрации достигнутых улучшений в области робототехники.

Система продемонстрировала значительное улучшение показателей успешности и надежности при выполнении высокоточных задач сборки, в частности, при установке штифта в отверстие. В ходе тестирования на стандартном наборе NIST ATB M1, удалось достичь 90%-ой успешности выполнения данной операции с зазором в 3 мм. Такой результат свидетельствует о превосходстве разработанного подхода над существующими методами, обеспечивая стабильную и эффективную сборку даже при относительно больших допусках. Успешное выполнение задачи с таким зазором подчеркивает потенциал системы для применения в промышленных условиях, где требуется высокая точность и надежность сборки компонентов.

Испытания системы ReTac-ACT на платформе NIST ATB M1 показали выдающиеся результаты при выполнении высокоточных сборок даже в условиях крайне малого зазора. В частности, при зазоре всего 0.1 мм система демонстрирует 80%-ный уровень успешных сборок, что значительно превосходит показатели существующих методов. В то время как традиционный подход ACT снижает свою эффективность до 15% при таких условиях, ReTac-ACT обеспечивает более чем в 4.5 раза лучшие результаты по сравнению с методом DP/pi05 при зазоре 3 мм. Эти данные подтверждают способность ReTac-ACT решать сложные задачи точной сборки, где требуется высокая надежность и точность позиционирования.

Сравнение карт визуального внимания показывает, что ReTac-ACT фокусируется на релевантных областях, в отличие от ACT и DP, рассеивающих внимание на фоне, что подтверждается динамикой параметра <span class="katex-eq" data-katex-display="false">\alpha_t</span> в ходе выполнения задачи. — Сравнение карт визуального внимания показывает, что ReTac-ACT фокусируется на релевантных областях, в отличие от ACT и DP, рассеивающих внимание на фоне, что подтверждается динамикой параметра $\alpha_t$ в ходе выполнения задачи.

К Шагу к Универсальной Робототехнике, Объединяющей Зрение, Язык и Действие

Исследование демонстрирует значительный потенциал интеграции тактильных датчиков с передовыми архитектурами управления, такими как Diffusion Policy и модели Vision-Language-Action (VLA), в частности, pi05. Внедрение тактильной обратной связи позволяет роботам не только «видеть» и «понимать» инструкции, но и «чувствовать» взаимодействие с объектами, что критически важно для точного и надежного выполнения сложных манипуляций. Такой подход значительно повышает устойчивость системы к неопределенности окружающей среды и вариациям в свойствах объектов, открывая путь к созданию роботов, способных адаптироваться к новым задачам и эффективно функционировать в реальных условиях. Использование VLA моделей, в сочетании с тактильными данными, позволяет роботу интерпретировать естественный язык, преобразовывать его в последовательность действий и контролировать свои движения, обеспечивая интуитивное и гибкое управление.

Дальнейшие исследования направлены на расширение возможностей ReTac-ACT для решения более сложных задач сборки и адаптации к разнообразным окружениям. Особое внимание будет уделено увеличению масштабируемости системы, позволяя ей успешно функционировать в условиях, требующих высокой точности и координации движений. Планируется тестирование ReTac-ACT на примерах, имитирующих промышленные процессы и бытовые сценарии, что позволит оценить её потенциал для автоматизации широкого спектра манипуляций. Успешная реализация этих исследований откроет путь к созданию роботов, способных автономно выполнять сложные сборки в динамично меняющихся условиях, значительно повышая эффективность и гибкость производственных процессов.

Разработанный подход открывает перспективы для создания более надежных и приспособляемых роботизированных систем, способных выполнять сложные манипуляции в реальных условиях. Подобные роботы смогут адаптироваться к непредсказуемым изменениям в окружающей среде и успешно справляться с задачами, требующими высокой точности и координации движений. Возможность выполнения тонких и деликатных операций расширяет сферу применения робототехники, включая сборку сложных механизмов, медицинские процедуры и работу с хрупкими объектами. В перспективе, подобные системы смогут автономно функционировать в различных сценариях, снижая потребность в постоянном вмешательстве человека и повышая эффективность работы в целом.

Исследование, представленное в данной работе, демонстрирует важность целостного подхода к решению задач точной сборки. ReTac-ACT, объединяя визуальную и тактильную информацию, выходит за рамки простого анализа отдельных сенсорных данных. Как однажды заметил Брайан Керниган: «Простота — это не минимализм, а чёткое различение необходимого и случайного». Этот принцип находит отражение в архитектуре ReTac-ACT, где динамическое объединение модальностей позволяет системе фокусироваться на релевантной информации, повышая эффективность и точность манипуляций. Подход, основанный на объединении данных, позволяет достичь значительных результатов в задачах, требующих высокой степени координации и адаптивности, что подтверждается успешной работой на NIST ATB M1.

Куда же дальше?

Представленная работа, несомненно, демонстрирует элегантность подхода к слиянию визуальной и тактильной информации. Однако, как часто бывает, решение одной задачи обнажает новые. Успех ReTac-ACT в имитационном обучении поднимает вопрос о его устойчивости к вариациям в среде и непредсказуемым действиям. Ведь каждый новый уровень сложности — это скрытая цена свободы от упрощающих предположений.

Очевидно, что дальнейшие исследования должны быть направлены на разработку систем, способных к адаптации и самообучению в реальном времени. Недостаточно просто реконструировать тактильные ощущения; необходимо понимать их контекст и предвидеть последствия действий. Следовательно, важным направлением представляется исследование способов интеграции ReTac-ACT с моделями предсказательного управления и планирования траекторий.

В конечном счете, структура определяет поведение. Будущие работы должны сосредоточиться на создании более гибких и масштабируемых архитектур, способных обрабатывать информацию из различных сенсоров и адаптироваться к широкому спектру задач манипулирования. Простота и ясность дизайна, в конечном счете, будут определять устойчивость и долговечность подобных систем.

Оригинал статьи: https://arxiv.org/pdf/2603.09565.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-11 20:12