Разделяй и властвуй: Новый подход к многоканальному зрению

Сеть DisentangleFormer обрабатывает входные признаки посредством слоя внедрения, после чего разделяет их на параллельные пути обработки - канальный ($C, HW$) и пространственный ($HW, C$) трансформаторы, выходные данные которых объединяются с помощью Squeezed Token Enhancer (STE) и многомасштабной прямой нейронной сети (MS-FFN), при этом оба трансформатора используют стандартные слои кодировщика с многоголовочным самовниманием, подробная структура модулей представлена в дополнительном материале.

Исследователи представили архитектуру DisentangleFormer, позволяющую более эффективно обрабатывать многоканальные изображения, такие как гиперспектральные данные, за счет разделения пространственной и канальной информации.

Восстановление формы сквозь преграды: новый подход к 3D-реконструкции

Разработанный подход к реконструкции трехмерных объектов в условиях частичной видимости объединяет эмпирические априорные знания о форме объектов с физически обоснованной информацией о контактах, что позволяет достичь высококачественного и точного восстановления геометрии.

Исследователи предлагают инновационный метод 3D-реконструкции объектов, эффективно справляющийся с окклюзиями и использующий как вероятностные модели, так и физические принципы взаимодействия.

Распознавание действий человека: новый подход к адаптивной мультимодальной обработке

Различные цветовые каналы RGB используются для представления человеческих действий, что демонстрирует возможность кодирования поведенческой информации посредством визуальных характеристик.

Исследование предлагает инновационную систему, объединяющую данные из различных источников, включая всенаправленные камеры, для более точного и персонализированного распознавания человеческой деятельности.