По взгляду о пользователе: предсказание состояния по данным отслеживания глаз
![Архитектура предполагает предварительную обработку позиционного сигнала для получения сигнала скорости, который затем подается на Pre-activation DenseNet, где каждый сверточный слой имеет ядро размером [latex]k=3[/latex], шаг [latex]s=1[/latex] и изменяющийся коэффициент дилатации [latex]d[/latex]; последующий регрессионный блок использует выход DenseNet для предсказания оценок объекта, определяемых количеством предсказанных оценок [latex]NN[/latex].](https://arxiv.org/html/2601.21045v1/x1.png)
Новое исследование показывает, как глубокое обучение может анализировать движения глаз, чтобы оценить уровень усталости и когнитивную нагрузку пользователя, но межсубъектная обобщаемость остается сложной задачей.






![Модель обрабатывает визуальную информацию, включая изображения и видеопоследовательности, совместно со сложными лингвистическими инструкциями, посредством кодировщика визуальных данных и адаптера, после чего все входные токены объединяются и поступают в декодер [latex]Thinker[/latex], обеспечивая комплексное понимание и генерацию ответа.](https://arxiv.org/html/2601.21199v1/images/workflow.png)