Движения под контролем: Оценка человеческих движений с помощью повседневных устройств

Автор: Денис Аветисян


Новый подход позволяет точно отслеживать движения человека, используя данные с обычных носимых гаджетов, таких как очки, смартфон и умные часы.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Система оценивает позу головы на основе данных с трёх камер и инерциальных измерительных блоков, используя SLAM, а затем, посредством фреймворка «учитель-ученик» с общим кодировщиком визуальных признаков и отдельными кодировщиками признаков IMU, объединяет временные данные с помощью двунаправленной LSTM для прогнозирования движения.
Система оценивает позу головы на основе данных с трёх камер и инерциальных измерительных блоков, используя SLAM, а затем, посредством фреймворка «учитель-ученик» с общим кодировщиком визуальных признаков и отдельными кодировщиками признаков IMU, объединяет временные данные с помощью двунаправленной LSTM для прогнозирования движения.

Исследование представляет фреймворк EveryWear, использующий мультимодальную обработку и дистилляцию знаний для точной оценки движений человека на основе данных с потребительских носимых устройств.

Несмотря на значительный прогресс в области захвата движения, существующие системы часто требуют дорогостоящего оборудования и сложной калибровки, ограничивая их применение в повседневной жизни. В данной работе, ‘Human Motion Estimation with Everyday Wearables’, представлен новый подход к оценке движений человека, использующий лишь стандартные носимые устройства — смартфон, смарт-часы, наушники и очки. Разработанная система EveryWear, объединяя визуальные и инерциальные данные, обеспечивает точную реконструкцию движений без предварительной калибровки и благодаря обучению на реальных данных преодолевает разрыв между синтетическими и реальными сценариями. Не откроет ли это путь к созданию интуитивно понятных интерфейсов взаимодействия и более глубокому пониманию человеческой активности в естественной среде?


Понимание Движения: Вызовы Точного Захвата

Точное определение движений человека имеет решающее значение для развития технологий расширенной реальности (XR), однако существующие методы сталкиваются с серьезными трудностями в условиях реального мира. Перспективные приложения, от виртуальных тренировок и реабилитации до иммерсивных игр и удаленного сотрудничества, требуют бесперебойного и надежного отслеживания положения и ориентации тела. Несмотря на значительные достижения в области компьютерного зрения и сенсорных технологий, существующие системы часто демонстрируют неудовлетворительную точность и надежность в сложных сценариях, таких как динамическое освещение, загроможденные помещения или быстрые и непредсказуемые движения. Это обусловлено как техническими ограничениями самих технологий, так и сложностью моделирования человеческих движений, которые характеризуются высокой степенью свободы и изменчивости.

Традиционные методы захвата движений, основанные на использовании камер, сталкиваются с серьезными ограничениями, обусловленными явлениями окклюзии. Как самопересечение конечностей, так и внешние препятствия, такие как мебель или другие люди, приводят к потере видимости ключевых точек тела. Это, в свою очередь, существенно снижает надежность алгоритмов отслеживания и приводит к ошибкам в реконструкции движений. В ситуациях, когда часть тела скрыта от взгляда камеры, программное обеспечение вынуждено полагаться на экстраполяцию или предсказание положения, что неизбежно вносит погрешности. Подобные проблемы особенно остро проявляются в динамичных сценах и в сложных окружениях, ограничивая практическое применение камер для точного и непрерывного захвата человеческих движений.

Инерциальные измерительные блоки (IMU), несмотря на свой потенциал в области захвата движения, сталкиваются с серьезной проблемой кумулятивной ошибки дрейфа. Со временем, незначительные погрешности в измерениях ускорения и угловой скорости накапливаются, приводя к постепенному искажению оценки положения и ориентации объекта. Нестабильность самих сенсоров, вызванная температурными колебаниями или внешними помехами, усугубляет эту проблему. В результате, точность IMU-систем снижается по мере продолжительности отслеживания, что делает их применение в задачах, требующих длительного и высокоточного захвата движения, крайне затруднительным. Для решения этой проблемы активно разрабатываются алгоритмы фильтрации и методы коррекции дрейфа, а также исследуются возможности интеграции IMU с другими сенсорными системами.

Предложенный метод демонстрирует значительно более низкую погрешность <span class="katex-eq" data-katex-display="false">SMPL</span> на датасете Ego-Elec по сравнению с базовыми моделями, использующими только данные IMU (IMUPoser) или камеры (Fish2Mesh), сохраняя устойчивость даже при частичной окклюзии.
Предложенный метод демонстрирует значительно более низкую погрешность SMPL на датасете Ego-Elec по сравнению с базовыми моделями, использующими только данные IMU (IMUPoser) или камеры (Fish2Mesh), сохраняя устойчивость даже при частичной окклюзии.

EveryWear: Новая Система Оценки Движений Человека

EveryWear представляет собой новую систему для оценки человеческих движений, использующую данные с легкодоступных и широко распространенных носимых устройств: смартфонов, смарт-часов и беспроводных наушников. В основе системы лежит идея интеграции данных, получаемых от встроенных инерциальных измерительных блоков (IMU) этих устройств. Использование комбинации данных, а не полагание на один источник, позволяет повысить надежность и точность оценки движений за счет компенсации ограничений каждого отдельного сенсора. Система предназначена для работы в реальном времени и не требует специализированного оборудования, что делает её применимой в широком спектре сценариев, включая мониторинг физической активности и анализ движений.

В основе EveryWear лежит принцип объединения данных от нескольких инерциальных измерительных блоков (IMU), установленных в смартфонах, смарт-часах и наушниках, а также данных RGB-камер. Использование нескольких источников информации позволяет компенсировать недостатки каждого отдельного сенсора. Например, IMU обеспечивают точные данные об ускорениях и угловых скоростях, но подвержены накоплению ошибок со временем. RGB-камеры предоставляют визуальную информацию о положении и ориентации, но могут быть ограничены в условиях низкой освещенности или при отсутствии видимости. Комбинируя данные этих сенсоров с помощью алгоритмов фильтрации и слияния, EveryWear стремится к повышению общей надежности и точности оценки движений человека, обеспечивая более устойчивые результаты в различных условиях эксплуатации.

В основе EveryWear лежит использование двунаправленной рекуррентной нейронной сети LSTM (Long Short-Term Memory) для эффективного моделирования временных зависимостей в данных, получаемых от различных датчиков. В отличие от однонаправленных LSTM, двунаправленная архитектура обрабатывает последовательность данных в обоих направлениях — как от начала к концу, так и от конца к началу. Это позволяет сети учитывать контекст как из прошлого, так и из будущего, что критически важно для точной оценки движения человека. Использование LSTM обеспечивает удержание информации о предыдущих кадрах, что способствует сглаживанию траектории движения и повышению реалистичности получаемых оценок, компенсируя кратковременные погрешности и шум в данных от датчиков.

Система включает в себя умные очки с бортовым Raspberry Pi, смартфон, смарт-часы и наушники, дополненные данными, полученными от системы захвата движения XSensMoCap.
Система включает в себя умные очки с бортовым Raspberry Pi, смартфон, смарт-часы и наушники, дополненные данными, полученными от системы захвата движения XSensMoCap.

Дистилляция Знаний для Надежного и Эффективного Обучения

Для решения проблемы ограниченного объема обучающих данных и расхождения между смоделированными и реальными движениями используется методика Teacher-Student Distillation (дистилляция знаний «Учитель-Ученик»). В рамках данной методики сложная модель-«Учитель», обученная на высококачественных данных, полученных с использованием системы захвата движения (MoCap) и датасета Ego-Elec, передает свои знания более компактной модели-«Ученику», предназначенной для использования в системе EveryWear. Этот процесс позволяет модели-«Ученику» эффективно обобщать знания, полученные от «Учителя», несмотря на ограничения, связанные с использованием данных, собранных с носимых датчиков.

Для передачи знаний о движении, полученных в контролируемых условиях, в систему EveryWear используется методика дистилляции знаний. Сложная модель-учитель, обученная на высокоточном оборудовании захвата движения (MoCap) и датасете Ego-Elec, служит источником информации для более компактной модели-ученика, предназначенной для работы в носимом устройстве. Этот процесс позволяет модели-ученику эффективно усваивать сложные паттерны движения, полученные от учителя, несмотря на ограничения, связанные с использованием данных, собранных с помощью носимых сенсоров.

Процесс дистилляции знаний позволил модели-ученику достичь средней абсолютной ошибки положения суставов (MPJPE) в 3.345 см, что на 3.35 см лучше базового показателя. Кроме того, средняя ошибка положения суставов после выравнивания по методу Прокруста (PA-MPJPE) составила 2.17 см, также улучшившись на 2.17 см по сравнению с базовой моделью. Данные результаты были достигнуты несмотря на ограничения, связанные с использованием данных, полученных с носимых датчиков.

Редкие случаи сбоев демонстрируют, что неплотная фиксация потребительских устройств, таких как телефон в кармане или часы с люфтом, может приводить к появлению шумов и нестабильности в показаниях датчиков.
Редкие случаи сбоев демонстрируют, что неплотная фиксация потребительских устройств, таких как телефон в кармане или часы с люфтом, может приводить к появлению шумов и нестабильности в показаниях датчиков.

Глобальная Локализация и Перспективы Применения в XR

В основе системы EveryWear лежит модуль SLAM (Simultaneous Localization and Mapping), позволяющий осуществлять точную глобальную локализацию и оценку положения головы пользователя в пространстве. Данная технология позволяет устройству одновременно строить карту окружающего мира и определять своё местоположение на этой карте в реальном времени. Это критически важно для привязки виртуальных объектов к физическому окружению, обеспечивая ощущение присутствия и реалистичности в приложениях дополненной и виртуальной реальности. Благодаря SLAM, система способна отслеживать движения головы пользователя с высокой точностью, что необходимо для создания стабильного и комфортного опыта взаимодействия с цифровым контентом, независимо от освещения или сложности окружения.

Возможность точного привязывания расчетной траектории движения к реальному окружению является ключевым фактором для создания действительно захватывающих AR/VR приложений. Без надежной привязки виртуальные объекты кажутся оторванными от физического мира, что разрушает иллюзию присутствия и снижает уровень погружения. Данная технология позволяет пользователю свободно перемещаться в пространстве, взаимодействуя с виртуальным контентом, который стабильно отображается в правильном месте относительно реальных объектов. Это открывает широкие перспективы для применения в различных сферах, включая игры, образование, проектирование и удаленную помощь, где ощущение реалистичности и интуитивное взаимодействие с виртуальным миром имеют первостепенное значение.

Разработанный метод демонстрирует высокую точность позиционирования в пространстве, о чем свидетельствуют результаты тестирования. Средняя погрешность определения координат вершин (Mean Per Joint Vertex Error, MPJVE) составила 4.289, что на 4.29 см меньше, чем у базовой модели. Аналогично, средняя погрешность определения углов поворота (Mean Per Joint Rotation Error, MPJRE) составила 2.40 градуса, улучшив показатель базовой модели на 2.40 градуса. Достигнутая точность открывает новые возможности для создания иммерсивных и интуитивно понятных взаимодействий в расширенной и виртуальной реальности нового поколения, позволяя пользователям беспрепятственно перемещаться и взаимодействовать с цифровым контентом в реальном окружении.

Исследование, представленное в статье, демонстрирует, как объединение данных от различных носимых устройств позволяет воссоздать картину движения человека, несмотря на неточности и пробелы в информации. Этот подход к мультимодальному синтезу напоминает слова Джеффри Хинтона: «Я думаю, что нейронные сети — это способ позволить компьютерам учиться, а обучение требует данных». Точно так же, EveryWear использует данные от очков, смартфона и других устройств как основу для обучения системы, позволяя ей преодолеть ограничения отдельных сенсоров и создать более точную модель движения. Подобно тому, как обучение требует большого количества данных, точность оценки движения напрямую зависит от эффективного объединения информации из различных источников. Если закономерность нельзя воспроизвести или объяснить, её не существует.

Что дальше?

Представленная работа, безусловно, демонстрирует потенциал использования повседневных носимых устройств для оценки движений человека. Однако, следует признать, что решение задачи точного определения положения в пространстве, опираясь лишь на данные, получаемые от очков, смартфона и других подобных гаджетов, — это, скорее, приближение к идеалу, чем его достижение. Очевидно, что шум и разреженность данных, генерируемых потребительской электроникой, остаются существенной проблемой. Необходимы дальнейшие исследования в области фильтрации и обработки сигналов, а также разработки алгоритмов, способных эффективно компенсировать погрешности датчиков.

Интересным направлением представляется изучение возможности интеграции предложенного подхода с другими методами оценки движений, такими как компьютерное зрение и SLAM, для создания гибридных систем, сочетающих в себе преимущества различных технологий. Более того, важно перейти от оценки траектории движения к пониманию намерения движения — то есть, к распознаванию действий и предсказанию дальнейшего поведения человека. Это потребует разработки более сложных моделей, учитывающих контекст и индивидуальные особенности пользователя.

В конечном счете, истинная ценность подобных исследований заключается не только в создании точных алгоритмов, но и в расширении границ нашего понимания о том, как человек взаимодействует с окружающим миром. И, возможно, в разработке технологий, которые позволят не просто отслеживать движения, но и предугадывать потребности пользователя, делая взаимодействие с технологиями более интуитивным и естественным.


Оригинал статьи: https://arxiv.org/pdf/2512.21209.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-27 20:10