Робот-помощник: Победитель конкурса BEHAVIOR 2025

Автор: Денис Аветисян

В статье представлены детали модели, обеспечивающей успешное выполнение сложных бытовых задач роботом, и ставшей лучшей в соревновании BEHAVIOR 2025.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Система, основанная на модели SigLIP для обработки изображений с трех камер, использует VLM PaliGemma для интеграции визуальных данных, информации о задаче и состоянии робота, а затем, посредством flow matching в модуле Action Expert, определяет необходимые действия, при этом замена языковой обработки на task embeddings и использование System 2 для учета немарковского контекста обеспечивают эффективное функционирование.

Разработка модели «зрение-язык-действие» с использованием Flow Matching и коррелированного шума для манипулирования объектами в долгосрочных задачах.

Несмотря на значительный прогресс в области робототехники, выполнение сложных, долгосрочных бытовых задач остается серьезным вызовом. В данной работе, ‘Task adaptation of Vision-Language-Action model: 1st Place Solution for the 2025 BEHAVIOR Challenge’, представлена модель, занявшая первое место в соревновании BEHAVIOR, демонстрирующая успешное выполнение 50 разнообразных задач манипулирования и навигации в фотореалистичной симуляции. Ключевым нововведением является использование коррелированного шума в алгоритме flow matching и многоэтапного отслеживания System 2, обеспечивающих эффективное обучение и плавное выполнение действий. Сможет ли данный подход стать основой для создания универсальных роботов-помощников, способных к автономному выполнению широкого спектра бытовых задач?

Преодолевая Разрыв Между Моделью и Реальностью в Воплощенном ИИ

Традиционные системы управления роботами часто испытывают трудности при выполнении сложных, долгосрочных задач, требующих последовательности тонких действий. Это связано с тем, что многие алгоритмы полагаются на упрощенные модели окружающей среды и не способны эффективно планировать действия на длительный период. Например, робот, которому необходимо собрать сложную конструкцию из множества деталей, может столкнуться с проблемами из-за необходимости учитывать взаимосвязи между отдельными шагами и адаптироваться к непредвиденным обстоятельствам. Вместо того чтобы последовательно выполнять действия, основанные на четком плане, робот может застревать в локальных оптимумах или допускать ошибки, приводящие к срыву всей операции. Разработка более гибких и адаптивных систем управления, способных учитывать контекст задачи и предвидеть будущие потребности, является ключевой задачей в области робототехники.

Современные подходы к управлению искусственным интеллектом, воплощенным в робототехнике, зачастую основываются на марковских предположениях, что существенно ограничивает их эффективность в реальных условиях. Эти предположения подразумевают, что текущее состояние системы полностью определяет её будущее поведение, игнорируя при этом историю взаимодействия с окружающей средой и неполноту получаемой информации. В действительности, большинство реальных сред являются лишь частично наблюдаемыми, а датчики робота предоставляют неполные или зашумленные данные. В результате, робот, полагающийся исключительно на текущее состояние, испытывает трудности при решении задач, требующих учета прошлых событий или предвидения будущих изменений, что снижает его способность к адаптации и надежности в динамичных и непредсказуемых ситуациях. Такой подход особенно проблематичен при выполнении сложных, долгосрочных задач, где незначительные ошибки в оценке состояния могут привести к существенным отклонениям от намеченной цели.

Для успешной навигации в реальных условиях, архитектуры искусственного интеллекта, управляющего роботами, нуждаются в способности рассуждать о контексте задачи и предвидеть будущие потребности. Это означает, что система должна не просто реагировать на текущие сенсорные данные, но и формировать внутреннюю модель происходящего, предсказывать последствия своих действий и адаптировать стратегию в зависимости от меняющейся обстановки. Такой подход требует интеграции механизмов долгосрочного планирования, учета неопределенности и способности к обучению на основе опыта, что позволяет роботу действовать более гибко и эффективно в сложных, динамичных средах. Вместо простого выполнения заранее запрограммированных инструкций, подобная архитектура позволяет роботу понимать цель задачи и самостоятельно находить оптимальный путь к ее достижению, даже если ситуация отклоняется от ожидаемой.

Использование логики голосования позволяет системе отслеживать этапы выполнения задачи даже в условиях немарковских состояний, обеспечивая плавную и стабильную прогрессию, в отличие от шумных и неточных предсказаний модели, как демонстрируется на примере манипуляций с радиоприемником.

Pi0.5: Архитектура Потокового Соответствия для Предсказания Действий

Архитектура Pi0.5 использует метод сопоставления потоков (flow matching) для генерации последовательностей действий. В основе этого подхода лежит преобразование случайного шума в когерентные траектории управления роботом. Метод flow matching позволяет обучить модель отображать распределение случайных векторов в распределение допустимых действий, обеспечивая плавное и непрерывное управление. Это достигается путем обучения модели предсказывать изменение в пространстве действий, необходимое для постепенного перехода от шума к желаемой последовательности действий, что особенно важно для задач, требующих точного и скоординированного движения робота в динамической среде.

В архитектуре Pi0.5 ключевым элементом является модель «зрение-язык-действие» (Vision-Language-Action, VLA), обеспечивающая интерпретацию визуальной информации об окружающей среде и лингвистических команд. Эта модель объединяет данные, полученные от визуальных сенсоров (например, с камер), с обработанными текстовыми инструкциями, позволяя системе понимать цели и контекст задачи. В результате VLA способна преобразовывать сложные запросы на естественном языке в последовательность действий, необходимых для выполнения поставленной задачи в физическом мире, и учитывать текущую визуальную ситуацию для адаптации поведения робота.

Архитектура Pi0.5 опирается на предварительное обучение (VLA Pretraining) на обширных наборах данных, включающих визуальную информацию, лингвистические команды и данные о действиях робота. Этот процесс позволяет модели усвоить общие закономерности и приобрести обобщенные навыки управления роботом, необходимые для выполнения разнообразных задач в различных условиях. Использование масштабных данных обеспечивает формирование устойчивых представлений о связи между восприятием, языковыми инструкциями и требуемыми действиями, что критически важно для успешной адаптации к новым ситуациям и обеспечения надежной работы в реальном времени. Предварительное обучение значительно снижает потребность в тонкой настройке для конкретных задач, упрощая процесс развертывания и повышая эффективность системы.

Веса, полученные в результате обучения KV-преобразования, демонстрируют отклонение от начальных значений (единичной матрицы), причем более яркие цвета указывают на более значительные изменения в слоях действий и VLM.

Уточнение Предсказания Действий: Плавность и Стабильность

Использование предсказания изменений в положениях суставов (пространство $\Delta$ действий) вместо предсказания абсолютных позиций обеспечивает более плавные и контролируемые движения. Традиционное предсказание абсолютных координат приводит к накоплению ошибок и рывкам, особенно при долгосрочном планировании. Вместо этого, предсказание относительных изменений позволяет модели фокусироваться на небольших корректировках, что снижает вероятность отклонения от траектории и упрощает процесс обучения. Такой подход позволяет более эффективно управлять движением и достигать более точных и стабильных результатов, поскольку модель оперирует с инкрементными изменениями, а не с абсолютными значениями.

Для повышения стабильности обучения модели используется коррелированный шум в процессе flow matching. В отличие от независимого шума, коррелированный шум позволяет контролировать сложность каждого шага денойзинга, предотвращая как слишком быстрые, так и слишком медленные изменения в процессе обучения. Это достигается путем введения зависимости между шумом, добавляемым на разных временных шагах, что позволяет модели более эффективно изучать распределение данных и улучшает качество предсказываемых действий. Регулировка степени корреляции шума позволяет находить оптимальный баланс между скоростью обучения и стабильностью, что приводит к повышению общей производительности модели и более предсказуемому поведению.

Нормализация по временным отметкам ($t$) решает проблему смещения распределений действий, возникающую при предсказании последовательностей. В процессе обучения и генерации, модель может сталкиваться с различными входными данными, приводящими к сдвигам в статистических характеристиках предсказываемых изменений в позах. Нормализация, применяемая к данным на каждом временном шаге, стандартизует распределение предсказываемых действий, центрируя их вокруг нуля и масштабируя до единичной дисперсии. Это обеспечивает более стабильное обучение и предсказуемое поведение модели в различных сценариях, предотвращая накопление ошибок и повышая согласованность генерируемых движений. Эффективно, нормализация гарантирует, что масштаб и смещение предсказываемых действий остаются постоянными, независимо от входных данных.

Трансформация KV-кэша позволяет реализовать гибкие механизмы внимания внутри модели предсказания движений. В стандартных архитектурах внимания, вычисление весов внимания и получение контекстных векторов требует повторного вычисления для каждого временного шага. KV-кэш сохраняет ключи ($K$) и значения ($V$) из предыдущих шагов, позволяя повторно использовать их при вычислении внимания на последующих шагах. Это значительно снижает вычислительные затраты и требования к памяти, особенно при работе с длинными последовательностями, а также способствует повышению стабильности и скорости обучения модели, не ухудшая при этом качество предсказываемых действий.

Анализ матрицы корреляции действий, построенной на данных обучения, выявил выраженную блочно-диагональную структуру, свидетельствующую о высокой временной и межмерной корреляции.

Усиление Надежности с Помощью Контекста и Коррекции

Система отслеживания стадий “System 2” позволяет модели прогнозировать текущую стадию выполнения задачи, обеспечивая критически важный немарковский контекст и устраняя неоднозначность. В отличие от традиционных подходов, полагающихся исключительно на текущее состояние, данная система учитывает предшествующую последовательность действий и, следовательно, “понимает” общую цель задачи. Это особенно важно в сложных манипуляциях, где один и тот же визуальный вход может означать разные действия на разных этапах. Прогнозируя стадию, модель способна более точно интерпретировать данные сенсоров и выбирать оптимальную стратегию, значительно повышая надежность и эффективность работы, особенно в ситуациях, когда визуальная информация недостаточна или зашумлена. По сути, система обеспечивает своего рода “внутреннее понимание” процесса, позволяя роботу действовать более осознанно и целенаправленно.

Стратегия “дорисовки” (inpainting) значительно улучшает плавность действий робота, используя корреляционно-зависимую передачу коррекций. В её основе лежит идея восстановления недостающих или неточных элементов траектории движения, опираясь на взаимосвязь между последовательными кадрами. Алгоритм анализирует корреляции между различными частями траектории и распространяет корректировки таким образом, чтобы минимизировать рывки и обеспечить более естественное и плавное выполнение задачи. Такой подход позволяет не только исправить ошибки, но и предвидеть возможные отклонения, что особенно важно при выполнении сложных манипуляций в динамической среде. В результате, робот демонстрирует повышенную устойчивость и точность движений, что положительно сказывается на общей производительности и надёжности системы.

Исследования показали, что внедрение простых правил коррекции, направленных на устранение распространенных ошибок, таких как случайные сжатия захвата, значительно повышает надежность роботизированных систем. Эти правила, разработанные для решения конкретных проблем, позволяют эффективно корректировать неверные действия и предотвращать неудачи при выполнении задач. В результате, применительно к подмножеству из тринадцати задач, наблюдалось двукратное увеличение показателя $q$-score, что свидетельствует о существенном улучшении качества и успешности выполнения операций благодаря автоматической коррекции ошибок.

Внедрение быстрого вспомогательного убытка (fast auxiliary loss) оказалось ключевым фактором повышения качества предсказания действий модели. Данный подход предполагает одновременное обучение не только основной задаче — предсказанию оптимальной последовательности действий, но и дополнительной, связанной с более точным определением текущего состояния окружающей среды. Это позволяет модели лучше понимать контекст и, как следствие, формировать более реалистичные и эффективные планы действий. Использование вспомогательного убытка способствует улучшению обобщающей способности модели, что особенно важно при работе с новыми или незнакомыми ситуациями. Благодаря этому, модель демонстрирует повышенную устойчивость к шумам и погрешностям в данных, что приводит к более надежным и точным результатам в широком диапазоне задач.

Метод последовательного предсказания сохраняет последние действия (красные кружки) для последующего использования в качестве начальных условий (зеленые квадраты) при следующем прогнозе, обеспечивая плавный переход между шагами планирования.

К Эффективному и Масштабируемому Воплощенному ИИ

Техники сжатия действий, в особенности интерполяция кубическими сплайнами, позволяют значительно уменьшить количество выполняемых действий без потери производительности. Вместо того, чтобы передавать каждую мельчайшую координату движения, система строит плавную кривую, описывающую траекторию, и передает лишь ключевые точки и параметры этой кривой. Это особенно важно для роботизированных систем, работающих в условиях ограниченных ресурсов, где каждый выполненный шаг требует энергии и времени. Эффективно представляя сложные движения с помощью компактного набора данных, кубические сплайны позволяют агенту действовать быстрее и эффективнее, сохраняя при этом точность и плавность выполнения задач. Такой подход открывает возможности для создания более автономных и устойчивых роботизированных систем, способных к долгосрочной работе в реальных условиях.

Оптимизация вычислительных ресурсов играет решающую роль в развертывании воплощенного искусственного интеллекта, особенно в средах с ограниченными ресурсами. В условиях, когда роботы должны функционировать в реальном мире с ограниченной вычислительной мощностью и энергопотреблением, эффективность алгоритмов становится критически важной. Сокращение количества необходимых действий и минимизация вычислительной нагрузки позволяют создавать более компактные и экономичные системы, способные к длительной автономной работе. Это особенно важно для широкого спектра приложений, включая домашнюю робототехнику, спасательные операции и исследования в труднодоступных местах, где развертывание мощных вычислительных ресурсов не представляется возможным. Повышение эффективности позволяет воплощенным агентам более надежно и быстро реагировать на изменения в окружающей среде, обеспечивая их функциональность и полезность в практических сценариях.

Разработанный подход, прошедший проверку в сложной среде BEHAVIOR Challenge (OmniGibson), демонстрирует значительный потенциал в создании надежных и эффективных роботизированных агентов, способных решать сложные задачи, приближенные к реальным условиям. В ходе соревнований, решение показало выдающиеся результаты, заняв первое место с показателем $q$-score в 26%. Это свидетельствует о высокой эффективности предложенной стратегии в условиях ограниченных ресурсов и сложных сценариев, открывая перспективы для широкого применения в различных областях, от автоматизации бытовых задач до промышленной робототехники и исследований в области искусственного интеллекта.

Кубическая сплайн-интерполяция позволила сжать исходные 26 действий до 20 шагов, обеспечив 1,3-кратное увеличение скорости.

Исследование демонстрирует стремление к созданию систем, способных к эффективному взаимодействию с миром посредством комплексного анализа визуальной информации, языка и действий. Авторы, словно скульпторы, отсекают избыточность, сосредотачиваясь на ключевых компонентах — коррелированном шуме и отслеживании стадий, что позволяет роботу справляться с долгосрочными задачами манипулирования. Как точно заметил Джон Маккарти: «Лучше всего думать о программировании как о способе передать машине правила, которые ей нужно соблюдать». Это особенно актуально в контексте данной работы, где четко сформулированные алгоритмы и архитектурные решения позволяют добиться впечатляющих результатов в области робототехники и многозадачного обучения.

Куда Далее?

Представленная работа, несмотря на очевидный успех в решении конкретной задачи, лишь подчеркивает глубину нерешенных вопросов. Достижение “первого места” часто оказывается иллюзией прогресса — победа в соревновании не означает приближения к истинному пониманию. Слишком часто системы оказываются хрупкими, требующими тонкой настройки для каждого нового сценария. Истинная система должна быть избыточно проста, чтобы не требовать инструкций.

В дальнейшем необходимо отказаться от стремления к созданию всеобъемлющих моделей, способных выполнять бесконечное количество задач. Гораздо перспективнее сосредоточиться на разработке узкоспециализированных систем, обладающих глубоким пониманием ограниченного круга действий. Умение различать существенное от несущественного — вот что действительно важно. Сложность — это признак несовершенства, а не прогресса.

Очевидно, что проблема долгосрочного планирования и адаптации к новым условиям остается открытой. Повторяющиеся победы в соревнованиях — лишь временное облегчение. Вместо гонки за новыми архитектурами, стоит обратить внимание на фундаментальные принципы обучения и представления знаний. Иначе, мы рискуем создать лишь все более сложные и хрупкие конструкции, требующие постоянного внимания и обслуживания. Понятность — это вежливость, и система, не способная к самообъяснению, обречена на забвение.

Оригинал статьи: https://arxiv.org/pdf/2512.06951.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-16 04:52