По взгляду о пользователе: предсказание состояния по данным отслеживания глаз

Автор: Денис Аветисян


Новое исследование показывает, как глубокое обучение может анализировать движения глаз, чтобы оценить уровень усталости и когнитивную нагрузку пользователя, но межсубъектная обобщаемость остается сложной задачей.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Архитектура предполагает предварительную обработку позиционного сигнала для получения сигнала скорости, который затем подается на Pre-activation DenseNet, где каждый сверточный слой имеет ядро размером <span class="katex-eq" data-katex-display="false">k=3</span>, шаг <span class="katex-eq" data-katex-display="false">s=1</span> и изменяющийся коэффициент дилатации <span class="katex-eq" data-katex-display="false">d</span>; последующий регрессионный блок использует выход DenseNet для предсказания оценок объекта, определяемых количеством предсказанных оценок <span class="katex-eq" data-katex-display="false">NN</span>.
Архитектура предполагает предварительную обработку позиционного сигнала для получения сигнала скорости, который затем подается на Pre-activation DenseNet, где каждый сверточный слой имеет ядро размером k=3, шаг s=1 и изменяющийся коэффициент дилатации d; последующий регрессионный блок использует выход DenseNet для предсказания оценок объекта, определяемых количеством предсказанных оценок NN.

В статье представлен подход на основе DenseNet для предсказания субъективных состояний пользователя по данным отслеживания взгляда с акцентом на проблему обобщения между раундами и пользователями.

Субъективные оценки состояния пользователя, такие как усталость или сложность задачи, часто оказываются дорогостоящими и трудно интерпретируемыми в долгосрочных исследованиях. В работе ‘Eye Feel You: A DenseNet-driven User State Prediction Approach’ предложен подход, использующий данные отслеживания взгляда и глубокое обучение на основе архитектуры DenseNet для предсказания этих субъективных оценок. Эксперименты показали, что модели способны прогнозировать изменения состояния пользователя во времени у одного и того же испытуемого, однако обобщение на новых людей остается сложной задачей. Возможно ли создание универсальных моделей, способных точно определять когнитивное и эмоциональное состояние пользователя исключительно по динамике его взгляда?


Распознавание Субъективного Опыта: От Теории к Практике

Точное измерение субъективных ощущений, таких как усталость и прилагаемые усилия, представляет собой сложную задачу в области взаимодействия человека и компьютера. Традиционные методы, основанные на самооценках, часто подвержены искажениям и не позволяют отслеживать изменения во времени с достаточной точностью. Субъективные переживания по своей природе изменчивы и индивидуальны, что затрудняет разработку объективных метрик. Поэтому, несмотря на важность понимания когнитивной и физической нагрузки пользователя, получение достоверных данных остается проблемой, ограничивающей возможности создания адаптивных и персонализированных интерфейсов, способных эффективно реагировать на текущее состояние человека.

Традиционные методы оценки субъективных переживаний, такие как усталость или степень приложенных усилий, часто основываются на самоотчетах испытуемых. Однако, данный подход имеет существенные ограничения. Субъективные оценки подвержены влиянию различных когнитивных искажений и предвзятостей, что снижает объективность получаемых данных. Кроме того, самоотчеты предоставляют лишь моментальную картину состояния, не позволяя отследить динамику изменений во времени с высокой точностью. В результате, исследователям сложно получить детальную и объективную информацию о внутреннем состоянии человека, особенно в условиях быстро меняющейся рабочей нагрузки или при выполнении сложных задач, требующих постоянного мониторинга.

Данные, полученные с помощью айтрекинга, отражающие динамику взгляда, представляют собой перспективный путь к объективной оценке внутренних состояний человека, однако их интерпретация требует сложного анализа. В отличие от субъективных отчетов, которые подвержены искажениям и имеют ограниченное временное разрешение, паттерны движения глаз способны зафиксировать тонкие изменения в когнитивной нагрузке, усталости и эмоциональном состоянии. Успешное извлечение значимой информации из этих данных требует применения передовых методов обработки сигналов и машинного обучения, позволяющих отделить релевантные признаки от случайного шума и выявить закономерности, коррелирующие с конкретными внутренними переживаниями. Именно поэтому разработка и применение сложных алгоритмов анализа динамики взгляда является ключевым фактором для создания более точных и надежных систем мониторинга и оценки человеческого состояния.

Исследование направлено на преодоление разрыва между субъективными ощущениями и объективными измерениями, используя возможности глубокого обучения для анализа динамики взгляда. В рамках данной работы, паттерны движения глаз, полученные с помощью айтрекинга, обрабатываются сложными нейронными сетями, способными предсказывать субъективные отчеты об усталости или приложенных усилиях. Этот подход позволяет перейти от полагающихся на самооценку методов, подверженных искажениям, к более точной и оперативной оценке внутреннего состояния человека, открывая перспективы для создания адаптивных интерфейсов и систем, реагирующих на меняющуюся когнитивную нагрузку пользователя.

Глубокое Обучение для Предсказания Субъективных Состояний

Для прогнозирования субъективных оценок используется метод глубокой регрессии, в котором динамика взгляда сопоставляется с количественными показателями. В качестве архитектуры модели применяется Pre-activation DenseNet, обеспечивающая эффективное повторное использование признаков и стабильность градиентов в процессе обучения. Данная архитектура особенно важна при обработке многомерных данных, получаемых от систем слежения за движением глаз, и позволяет извлекать значимые закономерности из паттернов взгляда для последующей оценки субъективного состояния.

Архитектура DenseNet, используемая в данной модели, обеспечивает повторное использование признаков (feature reuse) посредством соединения каждого слоя со всеми последующими. Это позволяет эффективно обрабатывать высокоразмерные данные отслеживания взгляда и снижает проблему исчезающих градиентов (vanishing gradients) за счет обеспечения стабильного потока градиентов по всей сети. В отличие от традиционных сверточных сетей, DenseNet создает более короткие пути для распространения градиентов, что облегчает обучение глубоких моделей и повышает их устойчивость к переобучению при работе с ограниченными объемами данных.

Модуль регрессионной головки (Regression Head Module) преобразует признаки, извлеченные из данных отслеживания взгляда, в предсказанные субъективные оценки. Данный модуль состоит из нескольких полносвязных слоев, оптимизированных для регрессионной задачи, и позволяет осуществлять непрерывную оценку субъективных состояний, в отличие от дискретной классификации. Это обеспечивает более тонкое и детальное представление субъективного опыта, поскольку модель способна предсказывать значения в широком диапазоне, а не только выбирать из предопределенных категорий. Выход модуля представляет собой скалярное значение, соответствующее предсказанной субъективной оценке.

Для обучения модели используется функция потерь Smooth L1, представляющая собой комбинацию L1 и L2 потерь. Это позволяет снизить влияние выбросов в данных, поскольку L1 потеря менее чувствительна к большим ошибкам, чем L2. В отличие от среднеквадратичной ошибки (MSE), Smooth L1 обеспечивает более стабильное обучение и повышает точность предсказаний, особенно в случаях, когда данные содержат аномальные значения или шум. Функция потерь переключается между L1 и L2 потерями в зависимости от величины ошибки, что обеспечивает баланс между робастностью и точностью.

Данные и Методы: Извлечение Сигнала из Движений Глаз

В рамках исследования использовался общедоступный набор данных GazeBase, включающий синхронизированные записи движения глаз и субъективные отчеты участников. Данный набор данных содержит информацию о координатах взгляда, времени фиксации, саккадах и других параметрах движения глаз, а также соответствующие описания переживаемого опыта. GazeBase предоставляет стандартизированную платформу для анализа взаимосвязи между паттернами движения глаз и внутренними состояниями, что обеспечивает воспроизводимость и возможность сравнения результатов с другими исследованиями в области когнитивных наук и нейробиологии.

Исходные данные о положении взгляда были предварительно обработаны с использованием фильтра Савицкого-Голея для получения сигналов скорости, что позволило зафиксировать динамические аспекты движений глаз. Данный фильтр, являясь методом цифровой фильтрации, сглаживает данные, минимизируя шум, при этом сохраняя важные характеристики сигнала, такие как пики и долины, отражающие резкие изменения в направлении взгляда. Полученные сигналы скорости представляют собой производную положения взгляда по времени и служат индикатором быстроты и интенсивности саккад и других динамических компонентов движений глаз, что необходимо для последующего анализа временных закономерностей и их связи с субъективными переживаниями.

Для изучения временных закономерностей и их связи с изменяющимися субъективными переживаниями проводился лонгитюдный анализ движений глаз. Данный анализ включал в себя последовательное отслеживание траектории взгляда во времени и сопоставление изменений скорости и паттернов саккад и фиксаций с зарегистрированными субъективными отчетами. Применялись методы временных рядов для выявления корреляций между динамикой движений глаз и изменениями в отчетах испытуемых, что позволило оценить, как зрительное поведение отражает и предвосхищает флуктуации внутреннего опыта. Анализ проводился на основе данных, синхронизированных по времени, что обеспечило возможность точного сопоставления зрительных паттернов и субъективных переживаний.

Для оценки эффективности разработанной модели её результаты сравнивались с глобальным средним значением (Global Mean Baseline). Этот подход позволил установить четкий критерий улучшения, определяемый как превышение производительности модели над средним значением по всей выборке данных. Использование глобального среднего в качестве базового уровня обеспечивает объективную оценку, исключая влияние индивидуальных особенностей данных и позволяя количественно оценить вклад модели в улучшение прогнозирования или анализа данных, полученных с помощью отслеживания движений глаз.

Обобщение и Влияние на Взаимодействие Человека и Компьютера

Исследования продемонстрировали выраженную способность модели к обобщению данных между различными экспериментальными раундами, что указывает на её умение точно предсказывать субъективные состояния одного и того же пользователя в разные сессии. Данный результат свидетельствует о стабильности выученных моделью закономерностей и её способности адаптироваться к изменениям, происходящим во времени, без необходимости повторного обучения для каждой новой сессии. Эта особенность открывает возможности для создания персонализированных интерфейсов, способных учитывать индивидуальные особенности пользователя и динамически подстраиваться под его текущее состояние, обеспечивая более комфортное и эффективное взаимодействие с компьютерными системами.

Исследования продемонстрировали перспективную способность модели к обобщению данных между разными испытуемыми. Это означает, что установленные закономерности между физиологическими показателями и субъективными состояниями не являются уникальными для конкретного человека, а представляют собой более общие принципы, применимые к широкому кругу пользователей. Такой результат указывает на то, что модель способна адаптироваться к новым данным, поступающим от ранее не виденных людей, без необходимости переобучения для каждого отдельного случая. Данная особенность открывает возможности для создания универсальных систем взаимодействия человек-компьютер, способных учитывать внутреннее состояние пользователей, даже если они впервые используют данное устройство или приложение, что значительно расширяет сферу их практического применения.

В ходе третьего этапа исследования, разработанная модель продемонстрировала точность предсказаний на уровне 0.60, что представляет собой существенный прогресс по сравнению с базовым показателем точности, составлявшим всего 0.22. Такое значительное улучшение указывает на эффективность алгоритма в распознавании субъективных состояний пользователей. Полученные результаты подтверждают, что модель способна улавливать сложные взаимосвязи между физиологическими данными и внутренними переживаниями, что открывает перспективы для создания более интуитивных и отзывчивых интерфейсов взаимодействия человека и компьютера.

В ходе четвертого этапа исследований была достигнута точность прогнозирования субъективных состояний на уровне 0.65, что значительно превосходит базовый показатель в 0.18. Данный результат демонстрирует устойчивое улучшение способности модели к обобщению и адаптации, позволяя с большей уверенностью определять внутреннее состояние пользователя. Такой прогресс указывает на потенциал разработки систем, способных не только распознавать, но и предвидеть изменения в ментальном и физическом состоянии, открывая возможности для создания более интуитивно понятных и отзывчивых интерфейсов взаимодействия человека и компьютера.

В ходе третьего этапа исследования была зафиксирована средняя абсолютная ошибка (MAE) в размере 0.64, что демонстрирует значительное улучшение по сравнению с базовым показателем в 0.78. Данный результат указывает на повышенную точность модели в оценке субъективных состояний пользователей. Уменьшение MAE свидетельствует о том, что предсказания модели в среднем ближе к фактическим значениям, что является важным шагом к созданию более адаптивных и персонализированных интерфейсов взаимодействия человека и компьютера. Повышение точности предсказаний, отраженное в снижении MAE, позволяет надеяться на более эффективное отслеживание и учет психофизиологического состояния пользователя в реальном времени.

В ходе четвертого этапа исследования удалось добиться дальнейшего улучшения точности прогнозирования субъективных состояний. Средняя абсолютная ошибка (MAE) снизилась до 0.61, что свидетельствует о значительном прогрессе по сравнению с исходным значением в 0.79. Данное снижение указывает на то, что модель становится все более способной к точному определению внутренних состояний пользователей, что открывает перспективы для создания адаптивных интерфейсов, способных учитывать и реагировать на изменяющиеся потребности и уровень утомляемости.

Возможность точного определения внутренних состояний пользователя открывает перспективы для создания персонализированных и адаптивных интерфейсов. Такие интерфейсы способны динамически реагировать на текущее состояние человека, будь то уровень усталости, когнитивная нагрузка или эмоциональное состояние. Это позволяет оптимизировать взаимодействие человека с компьютером, снижая утомляемость и повышая комфорт. Например, интерфейс может автоматически регулировать сложность задачи, предоставлять дополнительные подсказки или менять визуальный стиль в зависимости от того, насколько внимателен и сосредоточен пользователь. В конечном итоге, подобная адаптивность способствует более эффективному и приятному пользовательскому опыту, позволяя человеку работать дольше и продуктивнее, минимизируя при этом физическую и умственную нагрузку.

Точное предсказание умственного и физического напряжения представляет собой значительный прорыв, открывающий возможности для оптимизации рабочей нагрузки и повышения эффективности в самых разных задачах. Возможность оценивать текущее состояние пользователя позволяет системам адаптироваться к его потребностям, например, автоматически регулируя сложность задания или предоставляя своевременные перерывы для отдыха. Это особенно важно в сферах, требующих высокой концентрации внимания и продолжительных усилий, таких как управление транспортом, хирургия или работа с большим объемом информации. Подобные технологии могут снизить риск ошибок, связанных с переутомлением, повысить производительность и, в конечном итоге, улучшить общее самочувствие пользователя, создавая более комфортную и эффективную рабочую среду.

Исследование демонстрирует, что даже сложные модели глубокого обучения, вроде DenseNet, сталкиваются с трудностями при обобщении данных об эмоциональном состоянии между разными людьми. Это неудивительно, ведь субъективное восприятие усталости или сложности задачи сильно индивидуально. Впрочем, возможность предсказывать эти состояния для одного и того же пользователя со временем — уже немалой заслуга. Как заметил Линус Торвальдс: «Плохой код — это просто плохой код. Он не «устарел» и не «требует рефакторинга». Он просто плох». Аналогично, и модель, неспособная к кросс-субъектной генерализации, не становится от этого менее полезной в рамках конкретного пользователя. Главное — понимать ограничения и не ожидать чудес от алгоритмов.

Куда же мы смотрим?

Представленные результаты, безусловно, демонстрируют возможность предсказания субъективных состояний по данным отслеживания взгляда — что, в сущности, не является откровением. Всегда приятно наблюдать, как нейронные сети подтверждают интуитивно понятные вещи. Однако, проблема обобщения на новых испытуемых остаётся нерешённой, и это не удивительно. Каждый человек — сложный набор индивидуальных особенностей, и вера в «универсальную» модель, работающую для всех, выглядит наивно. К 2012-му году мы уже видели много «революционных» подходов к переносу обучения, которые быстро превратились в очередные графеновые обещания.

Наиболее вероятный путь развития — дальнейшая детализация моделей, учитывающих индивидуальные особенности. Но здесь кроется опасность уйти в переобучение и получить систему, работающую идеально только для конкретного человека в конкретных условиях. Все эти красивые диаграммы с «кросс-раундовой» и «кросс-субъектной» генерализацией неизбежно превратятся в монолитные, трудно поддерживаемые конструкции. Если тесты зелёные — значит, они ничего не проверяют, а лишь подтверждают, что данные для обучения были тщательно подобраны.

В конечном итоге, стоит признать, что предсказание субъективных состояний — это не столько задача машинного обучения, сколько задача понимания человеческой природы. А это, как известно, гораздо сложнее, чем обучение нейронной сети.


Оригинал статьи: https://arxiv.org/pdf/2601.21045.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-31 15:10