Нейроморфный взгляд: Быстрое отслеживание глаз без задержек

Автор: Денис Аветисян


Новый подход к отслеживанию взгляда использует принципы нейроморфных вычислений для достижения минимальной задержки и энергоэффективности.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Потоки событий преобразуются в дискретные временные окна длительностью 1 мс, которые затем используются для обучения моделей с помощью скользящего окна в 450 мс, а лучшая модель, отобранная по результатам валидации, оценивается в непрерывном режиме на тестовом наборе данных для имитации реального развертывания и получения итоговых показателей производительности, при этом данные дополняются пространственными и временными преобразованиями, а также методом CutOut.
Потоки событий преобразуются в дискретные временные окна длительностью 1 мс, которые затем используются для обучения моделей с помощью скользящего окна в 450 мс, а лучшая модель, отобранная по результатам валидации, оценивается в непрерывном режиме на тестовом наборе данных для имитации реального развертывания и получения итоговых показателей производительности, при этом данные дополняются пространственными и временными преобразованиями, а также методом CutOut.

Преобразование искусственных нейронных сетей в спайковые позволяет создавать эффективные системы оценки направления взгляда для носимых устройств.

Современные системы отслеживания взгляда для носимых устройств сталкиваются с ограничениями по задержке и энергопотреблению. В работе «Нейроморфное отслеживание взгляда для определения зрачка с низкой задержкой» представлен подход, использующий принципы нейроморфных вычислений и импульсные нейронные сети для решения этой задачи. Показано, что преобразование высокопроизводительных искусственных нейронных сетей в импульсные позволяет значительно снизить энергопотребление и задержку при минимальной потере точности. Открывает ли это путь к созданию энергоэффективных систем оценки направления взгляда для носимых устройств и приложений дополненной реальности?


За пределами традиционных кадров: ограничения в отслеживании взгляда

Традиционные системы отслеживания взгляда, использующие стандартные кадры с камеры, сталкиваются с серьезными трудностями при фиксации быстрых саккад — резких скачков глаз. В процессе этих быстрых движений возникает размытие изображения, что существенно снижает точность определения направления взгляда. Поскольку изображение фиксируется лишь в определенные моменты времени, информация о промежуточных положениях глаза теряется, что приводит к ошибкам в оценке точки фиксации и, как следствие, к неверной интерпретации визуального внимания. Эта проблема особенно актуальна в динамичных сценариях, где глаза совершают множество быстрых движений, и требует разработки новых подходов к отслеживанию взгляда, способных преодолеть ограничения, связанные с размытием изображения и низкой частотой кадров.

Существующие методы отслеживания взгляда, такие как основанные на анализе внешнего вида ($Appearance-Based Eye Tracking$) и моделировании ($Model-Based Eye Tracking$), зачастую требуют значительных вычислительных ресурсов. Это связано с необходимостью обработки большого объема визуальной информации и проведения сложных алгоритмических расчетов для точного определения положения взгляда. В частности, методы, основанные на внешнем виде, требуют постоянного обучения и адаптации к изменяющимся условиям освещения и индивидуальным особенностям пользователя, что увеличивает нагрузку на процессор. Моделирование, в свою очередь, предполагает построение и обновление сложной трехмерной модели глаза, что также является ресурсоемкой задачей. В результате, высокая вычислительная сложность ограничивает применение этих методов в системах реального времени, особенно в мобильных устройствах и приложениях виртуальной и дополненной реальности, где важна мгновенная реакция на движения взгляда.

Для приложений виртуальной и дополненной реальности критически важна высокая временная разрешающая способность и минимальная задержка отслеживания взгляда. Это связано с тем, что даже небольшие расхождения между движением головы пользователя и отображаемым изображением могут вызывать дискомфорт и укачивание, разрушая эффект присутствия. Высокая частота обновления данных о направлении взгляда позволяет системе мгновенно реагировать на изменения, обеспечивая плавное и реалистичное взаимодействие. Низкая задержка, в свою очередь, минимизирует разрыв между намерением пользователя и отображаемым результатом, что необходимо для точного и интуитивного управления в виртуальном пространстве. Именно поэтому разработка методов отслеживания взгляда, способных работать с высокой скоростью и минимальной задержкой, является ключевой задачей для создания комфортных и эффективных VR/AR систем.

Зрение, основанное на событиях: новый взгляд на оценку направления взгляда

В отличие от традиционных фрейм-камер, системы на основе event-камер фиксируют изменения яркости асинхронно, то есть каждый пиксель сообщает об изменении своего состояния независимо от других и от частоты кадров. Это обеспечивает высокую временную разрешающую способность, позволяя регистрировать события с микросекундной точностью, и значительно снижает избыточность данных, поскольку фиксируются только изменения, а не полные кадры. В результате, такие системы генерируют разреженный поток событий, что приводит к снижению требований к пропускной способности и вычислительным ресурсам по сравнению с обработкой видеопотока от фрейм-камеры.

Потоки событий, генерируемые event-камерами, характеризуются низкой плотностью данных, что значительно упрощает вычислительную нагрузку по сравнению с обработкой традиционных видеопотоков. Эта разреженность позволяет эффективно отслеживать быстрое движение глаз, поскольку для регистрации изменений яркости требуется меньше данных и, следовательно, уменьшается задержка. В отличие от frame-камер, event-камеры регистрируют изменения пикселей асинхронно, что особенно важно при отслеживании взгляда во время быстрых саккад и других динамических движений, когда стандартные методы могут давать сбои из-за размытия движения или низкой частоты кадров. Эффективность обработки данных позволяет использовать алгоритмы отслеживания взгляда в реальном времени даже на устройствах с ограниченными вычислительными ресурсами.

Для точного определения направления взгляда ($Gaze Direction$) при использовании событийных камер необходимы специализированные алгоритмы, отличные от применяемых для обработки видеопотока с традиционных фрейм-камер. Событийные камеры генерируют асинхронный поток событий, отражающих изменения яркости, что требует новых подходов к обработке данных. Эти алгоритмы должны эффективно фильтровать шум, коррелировать события, происходящие в разное время, и извлекать релевантную информацию для определения положения взгляда. Традиционные методы, основанные на анализе кадров, неприменимы напрямую из-за отсутствия глобального момента времени и разреженного характера событийного потока, что требует разработки алгоритмов, адаптированных к асинхронной природе данных.

Нейронные сети для отслеживания взгляда на основе событий

Искусственные нейронные сети (ИНС) предоставляют эффективный инструмент для анализа и моделирования сложных зависимостей в данных, генерируемых event-камерами. В отличие от традиционных методов, основанных на обработке кадров, event-камеры регистрируют изменения яркости каждого пикселя асинхронно, формируя поток событий. ИНС способны извлекать значимые признаки непосредственно из этого потока, что позволяет создавать системы отслеживания взгляда, устойчивые к шуму и быстрым движениям. Архитектуры ИНС, такие как сверточные нейронные сети (CNN) и рекуррентные нейронные сети (RNN), позволяют эффективно обрабатывать временные последовательности событий и учитывать контекст для точной оценки направления взгляда. Обучение ИНС на больших объемах event-данных позволяет добиться высокой точности и надежности в различных сценариях применения, включая робототехнику, виртуальную реальность и системы помощи водителю.

Модели, такие как CETM и BRAT, в задачах отслеживания взгляда, основанного на событиях, используют механизм внимания (Attention Mechanism) для повышения точности оценки направления взгляда. Этот механизм позволяет сети динамически фокусироваться на наиболее релевантных событиях, игнорируя несущественные. В процессе обучения модель присваивает веса различным событиям, определяя их важность для текущей задачи. События с более высокими весами оказывают большее влияние на конечный результат оценки, что позволяет сети эффективно отфильтровывать шум и улучшать производительность, особенно в условиях сложных и быстро меняющихся сцен.

Использование спайковых нейронных сетей (SNN) с $LIF$ (Leaky Integrate-and-Fire) слоями представляет собой биологически вдохновленную и энергоэффективную альтернативу традиционным подходам глубокого обучения для отслеживания взгляда. Данные сети позволяют добиться существенного снижения вычислительных затрат, в диапазоне от 30 до 1000 раз, и уменьшения размера модели на 22-45 раз по сравнению с эквивалентными моделями, построенными на основе традиционных искусственных нейронных сетей. Это достигается за счет использования спайковой активности, имитирующей работу биологических нейронов, и разреженного кодирования информации, что снижает потребность в ресурсах для вычислений и хранения данных.

Валидация и оптимизация с использованием эталонных наборов данных

Набор данных $3ET+$ представляет собой стандартизированный эталон для оценки алгоритмов отслеживания взгляда, основанных на событиях. Он включает в себя данные, полученные с использованием различных сенсоров и сценариев, что позволяет проводить объективное сравнение производительности различных алгоритмов. Стандартизация данных и метрик оценки, предоставляемая $3ET+$, обеспечивает воспроизводимость результатов и позволяет отслеживать прогресс в области event-based отслеживания взгляда. Использование данного набора данных позволяет исследователям и разработчикам оценивать и оптимизировать свои алгоритмы, а также сопоставлять их с существующими решениями, что способствует развитию данной технологии.

Методы аугментации данных, известные как “Event Cutout”, применимые к набору данных $3ET+$, позволяют повысить устойчивость и обобщающую способность моделей отслеживания взгляда на основе событий. Данная техника предполагает вырезание случайных фрагментов из входных данных событий, что заставляет модель учиться из неполной информации и адаптироваться к различным условиям. Применение “Event Cutout” способствует улучшению производительности алгоритмов в условиях шума и вариаций в данных, а также повышает их способность к обобщению на новые, ранее не встречавшиеся наборы данных.

Алгоритмы, такие как MambaPupil, демонстрируют высокую эффективность при оценке на стандартизированном наборе данных $3ET+$, достигая точности в диапазоне от 3.7 до 4.1 пикселей. При этом, расчетное энергопотребление этих алгоритмов составляет от 3.9 до 4.9 мВт. Данные показатели позволяют объективно сравнивать различные алгоритмы отслеживания взгляда на основе событий и оценивать прогресс в данной области, учитывая как точность, так и энергоэффективность.

Будущее отслеживания взгляда: к нейроморфной эффективности

Внедрение импульсных нейронных сетей (Spiking Neural Networks) на нейроморфном оборудовании открывает перспективы создания ультра-энергоэффективных систем отслеживания взгляда. В отличие от традиционных вычислительных архитектур, нейроморфное оборудование имитирует принципы работы биологического мозга, обрабатывая информацию в виде спайков — коротких импульсов. Это позволяет значительно снизить энергопотребление, поскольку вычисления выполняются только при наличии значимых изменений в визуальном потоке. Такой подход особенно важен для портативных устройств и приложений, требующих непрерывной работы от батарей, поскольку позволяет добиться существенной экономии энергии при сохранении высокой точности и скорости отслеживания взгляда. Использование импульсных нейронных сетей, моделирующих работу нейронов, в сочетании с нейроморфным железом, создает возможность для разработки систем, потребляющих на порядки меньше энергии, чем современные аналоги.

Система “Retina” представляет собой наглядный пример реализации отслеживания взгляда с использованием нейроморфного подхода. В ее основе лежит имитация принципов работы биологической зрительной системы, что позволяет добиться высокой точности определения направления взгляда при исключительно низком энергопотреблении. В отличие от традиционных систем, “Retina” использует события, генерируемые непосредственно изменениями в визуальной информации, а не непрерывный поток данных, что значительно снижает вычислительную нагрузку и энергозатраты. Этот инновационный подход демонстрирует перспективность применения нейроморфных вычислений для создания энергоэффективных и высокопроизводительных систем отслеживания взгляда, открывающих новые возможности для взаимодействия человека и компьютера.

Схождение принципов зрения, основанного на событиях, импульсных нейронных сетей и нейроморфного оборудования открывает путь к созданию нового поколения интеллектуальных и энергоэффективных интерфейсов, управляемых взглядом. В отличие от традиционных систем, требующих постоянной обработки каждого кадра, данная технология реагирует исключительно на изменения в поле зрения, что существенно снижает энергопотребление. Прогнозируемая задержка, составляющая приблизительно 3 мс при частоте работы 1 кГц, позволит добиться беспрецедентной отзывчивости и плавности взаимодействия, делая такие интерфейсы идеальными для широкого спектра применений — от носимых устройств и робототехники до систем виртуальной и дополненной реальности. Такая комбинация технологий не только расширяет возможности управления, но и способствует созданию более интуитивно понятных и эффективных способов взаимодействия человека и машины.

Исследование демонстрирует, что преобразование высокопроизводительных искусственных нейронных сетей в спайковые сети позволяет достичь эффективного отслеживания взгляда с минимальными потерями точности. Этот подход открывает возможности для создания носимых систем оценки направления взгляда, работающих с низким энергопотреблением. Как заметил Эндрю Ын: «Иногда лучше всего начать с малого, а затем постепенно усложнять». В данном случае, переход к спайковым нейронным сетям — это не усложнение, а элегантное решение, позволяющее оптимизировать производительность и энергоэффективность системы, что соответствует принципам гармоничного сочетания формы и функции. Такой подход к проектированию систем, когда приоритет отдается простоте и эффективности, делает систему не только мощной, но и долговечной и понятной.

Куда же это всё ведёт?

Представленная работа, безусловно, демонстрирует элегантность перехода от традиционных искусственных нейронных сетей к импульсным. Однако, подобно ловкому жонглеру, удержав в воздухе несколько шаров, необходимо осознавать, что их количество нельзя увеличивать бесконечно. Проблема низкой вычислительной сложности не отменяет необходимости дальнейшей оптимизации алгоритмов для работы в условиях ограниченных ресурсов — особенно, если речь идет о действительно носимых системах. Точность обнаружения зрачка — лишь одна сторона медали; необходимо учитывать влияние шумов, артефактов движения и индивидуальных особенностей глазного яблока.

Настоящим вызовом представляется разработка архитектур, способных не просто отслеживать саккады, но и интерпретировать намерения взгляда. Нейроморфное зрение предоставляет инструменты, но не дает готовых ответов. Необходимо учитывать, что «поэтичный» интерфейс, как и любой другой, требует тщательной калибровки и адаптации к конкретному пользователю. Иначе, даже самая изящная система окажется всего лишь красивой, но бесполезной игрушкой.

Будущие исследования, вероятно, будут сосредоточены на интеграции импульсных сетей с другими сенсорами и алгоритмами, а также на разработке методов обучения, позволяющих создавать самоадаптирующиеся системы отслеживания взгляда. В конечном итоге, цель состоит не в том, чтобы просто «видеть» взгляд, а в том, чтобы понимать его — и в этом заключается настоящая гармония между формой и функцией.


Оригинал статьи: https://arxiv.org/pdf/2512.09969.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-14 00:37