Сохраняя фокус: как Vision Transformers учатся без забывания
![Предложенная схема непрерывного обучения с сохранением внимания (ARCL-ViT) извлекает карты внимания [latex]\mathbf{U}_{t-1}[/latex] после завершения этапа обучения [latex]\mathcal{T}_{t-1}[/latex] и формирует маску [latex]\bar{\mathbf{M}}_{t-1}[/latex] для выделения ключевых областей, после чего, на этапе обучения [latex]\mathcal{T}_{t}[/latex], использует эту маску для выборочной обнуляции градиентов [latex]\nabla(\mathbf{W}_{q.t})^{\prime},\nabla(\mathbf{W}_{k.t})^{\prime},\nabla(\mathbf{W}_{v.t})^{\prime}[/latex] в соответствующих областях внимания, тем самым обновляя обучаемые веса [latex]\mathbf{W}_{q.t},\mathbf{W}_{k.t},\mathbf{W}_{v.t}[/latex].](https://arxiv.org/html/2602.05454v1/Fig2.png)
Новая методика позволяет нейросетям с архитектурой Vision Transformer эффективно осваивать новые знания, не теряя при этом навыки, полученные ранее.
![Предложенная схема непрерывного обучения с сохранением внимания (ARCL-ViT) извлекает карты внимания [latex]\mathbf{U}_{t-1}[/latex] после завершения этапа обучения [latex]\mathcal{T}_{t-1}[/latex] и формирует маску [latex]\bar{\mathbf{M}}_{t-1}[/latex] для выделения ключевых областей, после чего, на этапе обучения [latex]\mathcal{T}_{t}[/latex], использует эту маску для выборочной обнуляции градиентов [latex]\nabla(\mathbf{W}_{q.t})^{\prime},\nabla(\mathbf{W}_{k.t})^{\prime},\nabla(\mathbf{W}_{v.t})^{\prime}[/latex] в соответствующих областях внимания, тем самым обновляя обучаемые веса [latex]\mathbf{W}_{q.t},\mathbf{W}_{k.t},\mathbf{W}_{v.t}[/latex].](https://arxiv.org/html/2602.05454v1/Fig2.png)
Новая методика позволяет нейросетям с архитектурой Vision Transformer эффективно осваивать новые знания, не теряя при этом навыки, полученные ранее.
![Процесс регрессии личности, основанный на методологии [4], позволяет выявить закономерности в изменениях личностных характеристик на основе самоотчетов.](https://arxiv.org/html/2602.05650v1/Fig1.png)
Новое исследование показывает, что для более точного определения личности по аудиовизуальным данным необходимо учитывать не только общие черты характера, но и более тонкие нюансы и грани личности.

Новое исследование показывает, что варифокальные дисплеи снижают нагрузку на зрение при использовании дополненной реальности и повышают точность выбора объектов, но эффект варьируется в зависимости от индивидуальных особенностей пользователя.

Исследователи разработали смешанную реальность, объединяющую виртуальные подсказки с тактильным взаимодействием с манекеном, для повышения эффективности обучения родовспоможению.
Новый обзор научных исследований показывает, что темпы действительно революционных инноваций, похоже, замедляются.
Корпорация «ВСМПО-Ависма» является ключевым бенефициаром меморандума о возобновлении производства Ту-214. Увеличение спроса на титановые сплавы, обусловленное ростом объемов производства данного типа воздушных судов, окажет существенное влияние на финансовые показатели компании. Согласно нашим расчетам, увеличение объемов производства титановых сплавов на 15% в течение следующего года приведет к росту выручки «ВСМПО-Ависма» на 8-10%. Анализ мультипликаторов показывает, что текущий P/E компании составляет 12.5, что является умеренно привлекательным значением. Увеличение спроса на продукцию компании может привести к росту стоимости акций в среднесрочной перспективе. Ключевым фактором, определяющим дальнейшую динамику, является успешная реализация меморандума и своевременное наращивание объемов производства.

Исследователи предлагают новый подход к отслеживанию движений рук, позволяющий системе корректно работать с перчатками различных дизайнов и материалов.

Новое исследование показывает, что современные модели, объединяющие зрение и язык, способны значительно улучшить свои навыки в решении задач, требующих понимания геометрии и пространственного мышления.

В статье представлена архитектура CAViT, усовершенствование Vision Transformer, позволяющее динамически смешивать признаки для повышения эффективности и точности.

Исследователи представили инновационную систему, способную лучше понимать видеоконтент благодаря одновременной обработке видео- и аудиоинформации и учету намерений пользователя.