Робот понимает: новая модель для точного распознавания движений человека

Автор: Денис Аветисян

Исследователи представили систему, позволяющую роботам более эффективно взаимодействовать с людьми в непосредственной близости благодаря точному определению ключевых точек человеческого тела.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Представлена модель TAIHRI, предназначенная для определения трёхмерных ключевых точек человеческого тела в задачах близкого взаимодействия человека и робота, что позволяет обеспечить более точное и адаптивное взаимодействие.

В статье представлена модель TAIHRI, использующая восприятие, ориентированное на задачу, и дискретизированное пространство взаимодействия для повышения точности локализации 3D ключевых точек человека в сценариях близкого взаимодействия с роботом.

Несмотря на значительный прогресс в области оценки 3D-поз человека, существующие методы часто упускают из виду важность контекста и задач взаимодействия в сценариях, где робот работает в непосредственной близости от человека. В данной работе, представленной под названием ‘TAIHRI: Task-Aware 3D Human Keypoints Localization for Close-Range Human-Robot Interaction’, предлагается новая модель, основанная на Vision-Language, способная точно определять ключевые точки человеческого тела, необходимые для выполнения конкретных задач взаимодействия. TAIHRI использует дискретизацию пространства взаимодействия и предсказание следующего токена для точной локализации критически важных частей тела в 3D-координатах. Не откроет ли это новые возможности для создания более естественных и безопасных систем взаимодействия человека и робота в реальном времени?

Понимание Человека в Ближнем Взаимодействии: Проблемы и Вызовы

Традиционные системы восприятия, используемые в робототехнике, сталкиваются со значительными трудностями при взаимодействии с человеком на близком расстоянии, особенно в условиях реального мира, характеризующихся постоянными изменениями и непредсказуемостью. Существующие алгоритмы, как правило, разработаны для структурированных сред и испытывают затруднения при обработке сложной визуальной информации, возникающей в динамичных сценах. Проблемы усугубляются из-за необходимости учитывать не только положение и ориентацию человека, но и его намерения, которые часто выражаются через тонкие жесты, мимику и контекст ситуации. В результате, роботы испытывают трудности с адаптацией к изменяющимся условиям, что снижает эффективность и безопасность совместной работы с людьми.

Точное распознавание позы и намерений человека является ключевым фактором для обеспечения безопасного и эффективного взаимодействия с роботами, однако существующие методы зачастую демонстрируют недостаточную точность и надежность в реальных условиях. Неспособность корректно интерпретировать даже незначительные изменения в позе или жестах может привести к непредсказуемым и потенциально опасным ситуациям при совместной работе. Современные системы компьютерного зрения и анализа движений испытывают трудности при обработке зашумленных данных, быстро меняющихся условиях освещения и частичной видимости, что ограничивает их применимость в динамичных сценариях взаимодействия человек-робот. Повышение робастности и точности систем восприятия человеческой позы и намерений представляет собой сложную задачу, требующую разработки новых алгоритмов и подходов к обработке данных, учитывающих контекст и неполноту информации.

Для достижения естественного и интуитивно понятного взаимодействия человека и робота, система восприятия должна уметь бесшовно объединять визуальную и лингвистическую информацию. Простое отслеживание движений или распознавание речи недостаточно; необходимо понимать контекст, который возникает из сочетания того, что человек говорит, и того, как он это делает, а также визуальных сигналов, таких как жесты, мимика и направление взгляда. Такая интеграция позволяет роботу не просто реагировать на команды, а предвосхищать намерения человека, адаптироваться к меняющимся условиям и обеспечивать более плавное и эффективное сотрудничество. Например, фраза «Подай мне это» в сочетании с взглядом, направленным на определенный объект, предоставляет роботу гораздо больше информации, чем просто словесная команда, позволяя избежать двусмысленности и выполнить задачу точно.

В отличие от оценки позы и формы человека, восприятие в задачах взаимодействия человека с роботом концентрируется на точной локализации ключевых точек, важных для выполнения задачи, с близкого расстояния.

TAIHRI: Модель для Осознанного Взаимодействия Человека и Робота

TAIHRI расширяет возможности моделей «Vision-Language» (VLM) путем специализации на восприятии ключевых точек человеческого тела, релевантных для задач в ближнем взаимодействии человека и робота (HRI). В отличие от общих VLM, TAIHRI обучена идентифицировать и интерпретировать положение суставов и других ключевых точек, необходимых для понимания намерений человека и прогнозирования его действий в контексте совместной работы. Это позволяет модели более точно реагировать на команды и выполнять задачи, требующие учета физического присутствия и действий человека в непосредственной близости от робота. Акцент на ключевых точках позволяет эффективно обрабатывать визуальную информацию, даже при ограниченном обзоре или частичной видимости человека.

Архитектура TAIHRI использует механизм предсказания следующего токена (Next Token Prediction) для анализа визуальной информации. Этот подход позволяет модели не просто распознавать объекты на изображении, но и устанавливать связи между ними, а также прогнозировать последующие действия человека на основе текущего визуального контекста. Предсказание следующего токена, в данном случае, относится к вероятностной оценке наиболее подходящего элемента (токена) в последовательности, что позволяет модели строить более полное и контекстуально-зависимое представление о происходящем и, следовательно, лучше понимать намерения человека, выраженные в действиях.

TAIHRI осуществляет интерпретацию естественных языковых команд и преобразование их в точные действия робота посредством интеграции визуальной и лингвистической информации. Модель анализирует одновременно как текстовое описание задачи, так и визуальные данные с камеры, что позволяет ей понимать не только что необходимо сделать, но и как это следует выполнить в контексте текущей ситуации. Это достигается за счет обучения модели сопоставлять лингвистические конструкции с конкретными визуальными признаками и соответствующими движениями робота, обеспечивая точное и надежное выполнение поставленных задач в условиях взаимодействия человек-робот.

TAIHRI выполняет вывод, сначала нормализуя фокусное расстояние входного изображения, затем кодируя изображение и инструкцию пользователя для определения наиболее релевантных ключевых точек в 2D (пиксельном) и 3D (воксельном) пространстве, после чего преобразует воксельные координаты в метрическую систему для использования в задачах взаимодействия человека и робота или восстановления человеческой сетки.

Основа Восприятия: Методология и Данные

В основе системы восприятия TAIHRI лежат проверенные методы: обнаружение 2D ключевых точек (VitPose), оценка 3D-позы человека (SAM 3D Body) и оценка глубины. Комбинация этих технологий позволяет системе эффективно обрабатывать визуальную информацию и строить трехмерную модель взаимодействия. VitPose обеспечивает точное определение ключевых точек на 2D-изображении, SAM 3D Body используется для реконструкции трехмерной позы человека на основе этих точек, а оценка глубины предоставляет информацию о расстоянии до объектов в сцене, необходимую для точной локализации и взаимодействия.

Обучение и оценка TAIHRI осуществляются с использованием специализированных наборов данных, предназначенных для взаимодействия человека и робота на близком расстоянии. В частности, используется CloseHRI Dataset, содержащий данные о взаимодействиях в непосредственной близости, Harmony4D-Egocentric, представляющий собой данные от первого лица, и EgoBody, фокусирующийся на оценке позы человека. Использование этих наборов данных позволяет TAIHRI эффективно обучаться и демонстрировать высокую точность в задачах распознавания и оценки поз человека в контексте близкого взаимодействия.

Для обеспечения точной пространственной ориентации и локализации ключевых точек система TAIHRI использует параметры внутренней ориентации камеры (Camera Intrinsics), описывающие геометрические характеристики изображения, такие как фокусное расстояние и главная точка. В дополнение к этому, для упрощения процесса локализации и повышения эффективности вычислений применяется дискретизированное пространство взаимодействия (Discretized Interaction Space). Это пространство разделено на конечное число ячеек, что позволяет сузить область поиска ключевых точек и ускорить процесс их определения в трехмерном пространстве.

В основе системы TAIHRI лежит модель Qwen3-VL, обеспечивающая надежный фундамент для выполнения сложных задач. Экспериментальные данные демонстрируют, что TAIHRI последовательно превосходит существующие методы на наборах данных Harmony4D-Egocentric и EgoBody, достигая передовых результатов в области 3D локализации ключевых точек тела человека. Данное превосходство подтверждается количественными метриками, свидетельствующими о более высокой точности и надежности системы в задачах восприятия и анализа движений человека в ближнем взаимодействии.

Модель TAIHRI обеспечивает более точное определение ключевых точек человеческой позы, особенно удаленных от корневого сустава, по сравнению с современными методами оценки 3D-позы человека с учетом пространственного перемещения в координатах камеры.

Возможности и Перспективы: Естественное Взаимодействие и Автономность

Система TAIHRI обеспечивает управление роботами посредством естественного языка, позволяя пользователям взаимодействовать с ними интуитивно с помощью голосовых команд. Вместо сложных программных интерфейсов или ручного программирования, система интерпретирует человеческую речь и преобразует ее в действия робота. Это достигается за счет передовых алгоритмов обработки естественного языка, которые анализируют смысл команд и извлекают необходимую информацию для выполнения задачи. В результате, управление роботом становится доступным для широкого круга пользователей, не требуя специальных технических знаний и значительно упрощая процесс взаимодействия человека и машины.

Система TAIHRI обеспечивает глобальное восстановление человеческой сетки, позволяя создавать полное трехмерное представление позы человека в пространстве. Это достигается за счет анализа визуальных данных и построения детальной модели тела, включающей положение и ориентацию всех его частей. Восстановленная сетка предоставляет исчерпывающую информацию о форме и движениях человека, что критически важно для интуитивного взаимодействия с роботом и выполнения сложных задач. Понимание трехмерной позы позволяет системе адаптироваться к различным ситуациям, предвидеть действия человека и обеспечивать безопасное и эффективное сотрудничество.

Система TAIHRI использует так называемые “запросы, ориентированные на задачу”, что позволяет ей концентрировать внимание на наиболее значимых частях тела человека для выполнения конкретной операции. Вместо обработки всей информации о позе, модель получает четкие указания, какие именно области необходимо учитывать для успешного завершения поставленной задачи. Такой подход значительно повышает эффективность и точность работы, поскольку ресурсы системы направляются на анализ только релевантных данных, а ненужная информация игнорируется. Это особенно важно при взаимодействии с роботами в сложных условиях, когда необходимо быстро и надежно определять намерения человека и реагировать на них.

Разработанная модель изначально предполагает интеграцию с системами обучения с подкреплением, что открывает перспективы для создания полностью автономных агентов, взаимодействующих с человеком. Исследования показали, что точность определения параметров камеры — так называемая внутренняя информация — критически важна для эффективной работы системы: её исключение приводит к заметному снижению производительности. Особое значение имеет двухэтапная стратегия обучения, позволяющая достичь оптимальных результатов и обеспечивающая надежную работу модели в различных условиях. Этот подход позволяет агенту не только распознавать действия человека, но и адаптироваться к меняющейся обстановке, делая взаимодействие более естественным и эффективным.

Наша методика позволяет пользователям гибко задавать ключевые точки локализации с помощью естественного языка, что обеспечивает точное позиционирование 3D-модели человека в глобальной системе координат.

Исследование, представленное в данной работе, акцентирует внимание на важности контекстуального понимания в процессе взаимодействия человека и робота. Система TAIHRI, предлагая дискретизированное пространство взаимодействия и ориентируясь на задачу, демонстрирует, что точное определение ключевых точек человеческого тела в ближнем поле зрения — это не просто техническая задача, а основа для создания интуитивно понятного и безопасного взаимодействия. Как однажды заметила Фэй-Фэй Ли: «Искусственный интеллект должен быть полезным, а не просто умным». Именно эту полезность и стремится реализовать TAIHRI, обеспечивая надежную основу для роботов, работающих в непосредственной близости от человека, и расширяя возможности для совместной деятельности.

Что Дальше?

Представленная работа, демонстрируя улучшение локализации трёхмерных ключевых точек человека в ближнем взаимодействии с роботами, поднимает вопрос о природе самой “понятности” для машины. Если закономерность в данных о взаимодействии не может быть надёжно воспроизведена и объяснена в рамках модели, можно ли говорить о её реальном существовании? Успех TAIHRI зависит от дискретизации пространства взаимодействия, что, по сути, является навязыванием структуры миру, а не её обнаружением. Следующим шагом представляется не просто увеличение точности, а разработка моделей, способных к более гибкому, контекстуально-зависимому восприятию, не требующих жёсткой предварительной категоризации.

Очевидным ограничением является зависимость от языковых запросов. Будущие исследования должны сосредоточиться на создании систем, способных самостоятельно определять намерения человека, основываясь на визуальных данных и мимике, без необходимости явного лингвистического указания задачи. По сути, необходимо выйти за рамки простого «перевода» языка в координаты, и приблизиться к пониманию лежащих в основе мотиваций.

В конечном итоге, задача состоит не в создании «умных» роботов, а в понимании того, что значит «понимать» вообще. Если модель не может объяснить, почему определённое действие является оптимальным в конкретной ситуации, какова ценность её предсказаний? Это, возможно, и есть главный вызов, стоящий перед областью взаимодействия человека и робота.

Оригинал статьи: https://arxiv.org/pdf/2604.08921.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-13 09:11