Жесты без касаний: Распознавание движений по Wi-Fi

Автор: Денис Аветисян


Новая система использует данные о состоянии канала связи Wi-Fi и механизмы внимания для точного распознавания жестов в различных условиях.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Распознавание жестов стало возможным благодаря сенсорам WiFi, открывая новые горизонты для взаимодействия человека и машины без необходимости использования традиционных устройств ввода.
Распознавание жестов стало возможным благодаря сенсорам WiFi, открывая новые горизонты для взаимодействия человека и машины без необходимости использования традиционных устройств ввода.

Исследование посвящено разработке системы распознавания жестов на основе анализа информации о состоянии канала (CSI) Wi-Fi с применением механизмов внимания для обеспечения обобщающей способности в различных сценариях.

Несмотря на успехи в распознавании жестов, существующие системы часто демонстрируют снижение точности при переносе в новые, незнакомые условия. В данной работе, озаглавленной ‘WiFi-based Cross-Domain Gesture Recognition Using Attention Mechanism’, предложен инновационный подход к распознаванию жестов на основе анализа данных беспроводной связи Wi-Fi, использующий механизмы внимания для повышения устойчивости к изменениям окружения. Разработанная система, использующая информацию о состоянии канала (CSI), позволяет достичь высокой точности распознавания как в знакомых, так и в новых условиях, значительно превосходя существующие решения. Какие перспективы открывает использование Wi-Fi сенсоров для создания интеллектуальных систем взаимодействия с человеком в различных сферах применения?


Отголоски движения: Введение в беспроводное управление жестами

Традиционные системы распознавания жестов, использующие камеры и датчики глубины, несмотря на свою эффективность, обладают рядом существенных недостатков. Помимо значительной стоимости оборудования и сложной настройки, они вызывают обоснованные опасения относительно конфиденциальности. Непрерывный сбор и анализ визуальной информации требует значительных вычислительных ресурсов и может представлять угрозу для личных данных пользователя. В отличие от них, альтернативные подходы, стремящиеся к бесконтактному управлению, позволяют минимизировать риски, связанные с несанкционированным доступом к визуальному пространству и обеспечивают более высокий уровень приватности. В связи с этим, растет интерес к разработке доступных и безопасных технологий распознавания жестов, не требующих использования визуальных датчиков.

Растущий спрос на управление без прикосновений, обусловленный развитием «умных» домов, носимых устройств и автоматизированных систем, стимулирует активные исследования в области альтернативных, экономичных методов распознавания жестов. Традиционные системы, полагающиеся на камеры и датчики глубины, часто оказываются дорогостоящими и вызывают опасения по поводу конфиденциальности. В связи с этим, все большее внимание уделяется использованию широко распространенных WiFi-сигналов для создания систем, способных распознавать движения и жесты без необходимости установки дополнительного оборудования. Такой подход открывает возможности для создания более доступных и ненавязчивых интерфейсов, способствующих развитию концепции «ambient intelligence», где окружающая среда адаптируется к потребностям пользователя.

Развитие технологий 6G, в частности концепции Интегрированной Сенсорной Коммуникации (ISAC), открывает новые горизонты в области управления жестами. ISAC позволяет беспроводным сигналам, используемым для передачи данных, одновременно функционировать как сенсоры, способные улавливать изменения в окружающей среде, включая движения человеческого тела. Вместо дорогостоящих и потенциально нарушающих приватность камер и сенсоров глубины, системы на базе ISAC используют существующую WiFi-инфраструктуру для точного и недорогого распознавания жестов. Это достигается за счет анализа изменений в отраженных сигналах, что позволяет определять положение и движение рук, а также другие жесты. Внедрение ISAC в сети 6G обещает революционизировать взаимодействие человека с устройствами, создавая интуитивно понятные и бесшовные интерфейсы для различных приложений, от умного дома до виртуальной реальности.

Несмотря на многообещающие перспективы беспроводного управления жестами, достоверное извлечение информации о движениях из зашумленных WiFi-сигналов представляет собой серьезную проблему. Сложность заключается в том, что радиоволны подвержены многочисленным искажениям, вызванным отражениями от окружающих объектов, интерференциями от других беспроводных устройств и даже изменениями в окружающей среде. Для преодоления этих трудностей требуются сложные алгоритмы обработки сигналов и методы машинного обучения, способные отфильтровать шум и выделить слабые сигналы, несущие информацию о жестах. Повышение точности и надежности распознавания жестов в условиях реального мира остается ключевой задачей для дальнейшего развития этой технологии и её широкого внедрения в повседневную жизнь.

На изображении представлена сцена, используемая для WiFi-сенсинга.
На изображении представлена сцена, используемая для WiFi-сенсинга.

Инструмент невидимого зрения: Анализ состояния канала (CSI)

Беспроводные сети Wi-Fi предоставляют богатый источник данных для распознавания жестов посредством анализа информации о состоянии канала (CSI). CSI описывает характеристики беспроводного сигнала между передатчиком и приемником, включая амплитуду, фазу и частоту. Вместо использования данных, напрямую связанных с передаваемым контентом, CSI позволяет оценивать изменения в окружающей среде, вызванные движением объектов или присутствием людей. Эти изменения проявляются в изменениях характеристик сигнала, которые могут быть зафиксированы и интерпретированы алгоритмами машинного обучения для распознавания жестов и других видов активности. Поскольку CSI является неотъемлемой частью стандартных протоколов Wi-Fi, для его получения не требуется дополнительного оборудования, что делает этот подход экономически эффективным и широко применимым.

Для смягчения влияния фазового шума и обеспечения высокой точности при использовании информации о состоянии канала (CSI), необходима предварительная обработка данных, включающая методы, такие как конъюгированное умножение. Фазовый шум, возникающий из-за нестабильности осцилляторов в сетевых картах, может существенно искажать фазовую информацию, содержащуюся в CSI. Конъюгированное умножение, представляющее собой операцию, при которой каждый элемент матрицы CSI умножается на комплексно сопряженный элемент, эффективно подавляет этот шум и стабилизирует фазовую составляющую сигнала. Это позволяет более точно извлекать информацию о перемещении объектов или жестах, поскольку фазовые изменения, вызванные этими событиями, становятся более заметными и менее подверженными искажениям. Применение конъюгированного умножения является стандартным этапом предобработки CSI данных перед их использованием в алгоритмах распознавания жестов или определения местоположения.

В качестве альтернативы использованию информации о состоянии канала (CSI) для распознавания жестов, может применяться индикатор уровня принимаемого сигнала (RSSI). Однако, RSSI характеризуется более низкой точностью по сравнению с методами, основанными на CSI. Это обусловлено тем, что RSSI представляет собой усредненную величину, подверженную влиянию множества факторов, таких как затухание сигнала, многолучевое распространение и помехи, что затрудняет точное определение положения и движений объекта. CSI, в свою очередь, предоставляет более детальную информацию о характеристиках беспроводного сигнала, позволяя более эффективно фильтровать шумы и повышать точность распознавания.

Надёжная аппаратная платформа является критически важным компонентом для получения достоверных данных о состоянии канала (CSI). Для сбора CSI необходимы сетевые карты, способные предоставлять доступ к информации о сигналах на физическом уровне. Сетевые карты Intel 5300, в частности, зарекомендовали себя как надёжное решение для этой задачи, обеспечивая необходимый уровень детализации и стабильности сигнала. Важно отметить, что не все сетевые карты поддерживают прямой доступ к CSI, и выбор оборудования напрямую влияет на качество и надёжность получаемых данных, необходимых для последующей обработки и анализа.

Архитектура интеллекта: Глубокое обучение для распознавания жестов

Преобразование Фурье в краткосрочном режиме (STFT) используется для извлечения сдвига доплеровской частоты (DFS) из данных канала распространения сигнала (CSI). DFS отражает изменение частоты сигнала, вызванное движением объекта, и позволяет идентифицировать даже незначительные перемещения, связанные с жестами. Применение STFT позволяет разложить CSI во временной области в частотную, выявляя сдвиги, пропорциональные скорости движения. Величина сдвига $f_d$ рассчитывается как $f_d = \frac{2v}{\lambda}$, где $v$ — скорость движения объекта, а $\lambda$ — длина волны сигнала. Извлеченные значения DFS служат входными данными для последующей обработки и классификации жестов.

В качестве основы для извлечения признаков используется глубокая нейронная сеть, в частности, архитектура ResNet18. Данная сеть обеспечивает устойчивое представление сигнала благодаря своей структуре, включающей остаточные связи (residual connections). Эти связи позволяют эффективно обучать более глубокие сети, предотвращая проблему затухания градиента и обеспечивая распространение информации через слои. ResNet18 состоит из 18 слоев, включая сверточные, пулинговые и полносвязные слои, оптимизированные для эффективного извлечения иерархических признаков из данных CSI. Использование ResNet18 позволяет получить робастное представление сигнала, устойчивое к шумам и вариациям в данных.

Модуль SMSA, использующий механизмы пространственного и многомасштабного внимания, предназначен для дальнейшей оптимизации извлечения признаков из данных CSI. Пространственное внимание позволяет сети динамически взвешивать различные пространственные области входного сигнала, выделяя наиболее информативные участки. Многомасштабное внимание обрабатывает входные данные на различных масштабах, что позволяет захватывать как локальные, так и глобальные зависимости в сигнале. Комбинация этих механизмов позволяет SMSA эффективно фокусироваться на наиболее релевантной информации, отфильтровывая шум и повышая точность распознавания жестов за счет более детального анализа данных.

Слои самовнимания (Self-Attention) внутри модуля SMSA усиливают способность сети взвешивать значимость различных признаков, извлеченных из данных CSI. Механизм самовнимания позволяет модели динамически определять взаимосвязи между различными частями входной последовательности, присваивая более высокий вес признакам, которые наиболее релевантны для текущей задачи. В частности, для каждого признака вычисляется его важность на основе взаимодействия с другими признаками, что позволяет сети фокусироваться на наиболее информативных аспектах сигнала и игнорировать шум или нерелевантные данные. Это приводит к более точному представлению данных и, как следствие, к повышению общей точности системы распознавания жестов.

Модуль SMSA представляет собой ключевой компонент системы, обеспечивающий выполнение необходимых функций.
Модуль SMSA представляет собой ключевой компонент системы, обеспечивающий выполнение необходимых функций.

Оценка и перспективы: Точность и возможности системы

Для обучения и оценки эффективности разработанной системы распознавания жестов на основе WiFi используется Widar3 Dataset — признанный эталон в данной области исследований. Этот набор данных предоставляет стандартизированную среду для оценки, позволяя объективно сравнить производительность предложенного подхода с существующими методами. Widar3 содержит обширную коллекцию данных, полученных в различных реальных сценариях, что обеспечивает более надежную оценку обобщающей способности системы и ее устойчивость к изменениям условий эксплуатации. Использование общедоступного и широко признанного набора данных гарантирует воспроизводимость результатов и способствует дальнейшему развитию исследований в области распознавания жестов на основе беспроводных технологий.

В рамках работы над задачей распознавания жестов на основе WiFi-сигналов, в качестве ключевой характеристики используется профиль скорости тела в системе координат пользователя (Body-coordinate velocity profile, BVP). Этот подход позволяет более точно отразить динамику движения, что особенно важно для классификации жестов. BVP, извлеченный из данных Widar3, представляет собой вектор, описывающий скорость изменения положения тела во времени, и существенно повышает точность распознавания по сравнению с использованием только статических характеристик сигнала. По сути, BVP помогает сети лучше различать различные жесты, даже если они имеют схожие начальные и конечные положения, так как учитывает траекторию и скорость выполнения движения.

В процессе обучения нейронной сети для распознавания жестов, применялся оптимизатор Adam, что позволило эффективно корректировать параметры модели для минимизации функции потерь. Оптимизатор Adam, сочетающий в себе преимущества алгоритмов Adaptive Gradient Algorithm и Root Mean Square Propagation, динамически адаптирует скорость обучения для каждого параметра, основываясь на оценках первого и второго моментов градиента. Такой подход обеспечивает быструю сходимость и позволяет избежать застревания в локальных минимумах функции потерь, что, в свою очередь, способствует достижению высокой точности распознавания жестов при использовании набора данных Widar3. Эффективная настройка параметров сети с помощью Adam позволила добиться значительного улучшения результатов по сравнению с существующими методами в области распознавания жестов на основе WiFi.

В процессе обучения системы распознавания жестов, функция $CrossEntropyLoss$ играет ключевую роль в оптимизации её работы. Она количественно оценивает расхождение между предсказанными моделью метками жестов и их истинными значениями из обучающего набора данных. По сути, эта функция вычисляет «стоимость» ошибки, которую совершает модель при классификации. Чем больше расхождение между предсказанием и реальностью, тем выше значение $CrossEntropyLoss$, что сигнализирует алгоритму обучения о необходимости корректировки параметров нейронной сети. Минимизируя эту функцию с помощью оптимизатора Adam, система постепенно учится более точно сопоставлять входные данные (сигналы WiFi) с соответствующими жестами, повышая общую точность распознавания и обеспечивая надёжную работу в различных условиях.

Предложенная система распознавания жестов на основе WiFi продемонстрировала среднюю точность в 97.61% при тестировании на междоменных данных, используя набор Widar3. Этот результат свидетельствует о значительном улучшении по сравнению с существующими методами и подтверждает высокую обобщающую способность системы. Достигнутая точность указывает на эффективность предложенного подхода в адаптации к различным условиям и окружениям, что является важным преимуществом для практического применения системы распознавания жестов в реальных сценариях. Способность системы к обобщению позволяет надежно идентифицировать жесты, даже когда данные, полученные в процессе обучения, отличаются от данных, полученных в процессе тестирования.

Предлагаемая система распознавания жестов на основе WiFi демонстрирует исключительно высокую точность в пределах исходного набора данных, достигая в среднем 99.72%. Данный показатель существенно превосходит результаты, полученные с использованием существующих методов, что подтверждает эффективность предложенного подхода к извлечению и анализу данных. Высокая точность внутри набора данных указывает на способность системы эффективно обучаться и обобщать информацию, полученную из тренировочных примеров, что является ключевым фактором для надежной работы в реальных условиях.

В ходе кросс-доменного тестирования разработанная система распознавания жестов на основе Wi-Fi продемонстрировала высокую адаптивность и точность в различных средах. В частности, в условиях аудитории (Classroom) система достигла точности 96.18%, значительно превзойдя результат WiGRUNT, составивший 87.9%. В просторном холле (Hall) точность системы составила 99.26%, а в офисном помещении (Office) — 97.38%. Эти результаты указывают на способность системы эффективно обобщать знания и поддерживать высокую производительность даже при изменении условий окружающей среды, что делает её перспективным решением для широкого спектра применений в области умных домов, систем помощи людям и человеко-машинного взаимодействия.

Схема Widar3 демонстрирует структуру и компоновку системы.
Схема Widar3 демонстрирует структуру и компоновку системы.

Представленная работа демонстрирует изящество подхода к распознаванию жестов посредством анализа информации о состоянии канала (CSI) в сетях WiFi. Внимательный механизм, используемый в системе, позволяет ей эффективно фокусироваться на наиболее значимых аспектах данных, повышая точность и обобщающую способность. Это напоминает о важности последовательности и гармонии в проектировании сложных систем. Как однажды заметил Джеффри Хинтон: «Наши модели должны уметь не только запоминать, но и понимать». Именно такое понимание позволяет системе эффективно адаптироваться к различным условиям и доменам, демонстрируя элегантность в простоте реализации и эффективности.

Куда же дальше?

Представленная работа, безусловно, демонстрирует элегантность подхода к распознаванию жестов посредством анализа информации о состоянии канала связи (CSI) в сетях WiFi. Однако, не стоит обманываться кажущейся простотой. Истинная сложность заключается не в реализации алгоритма, а в понимании границ его применимости. Перенос обучения между доменами — задача, требующая не просто увеличения объема данных, но и глубокого осмысления того, что вообще означает “похожесть” в контексте радиосигналов. К сожалению, “внимание” механизма, как и человеческое, может быть избирательным, фокусируясь на несущественных деталях и игнорируя фундаментальные закономерности.

Будущие исследования должны быть направлены не только на повышение точности, но и на развитие методов интерпретации. Должно быть понятно, почему система принимает то или иное решение, а не просто что она решила. Следующим шагом видится интеграция с другими сенсорами — визуальными, звуковыми — для создания более полной и надежной картины происходящего. И, конечно, необходимо задуматься о вопросах конфиденциальности и безопасности — ведь каждый радиосигнал несет в себе потенциальную информацию о пользователях.

Истинный прогресс заключается не в создании все более сложных алгоритмов, а в достижении гармонии между функциональностью и ясностью. Хороший интерфейс невидим для пользователя, но ощущается. И задача исследователей — не просто научить машину распознавать жесты, а создать систему, которая будет естественно и интуитивно взаимодействовать с человеком.


Оригинал статьи: https://arxiv.org/pdf/2512.04521.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-07 06:56