Где всё на своём месте: проверка пространственного мышления генеративных моделей

Новое исследование выявляет слабые места современных моделей преобразования текста в изображения в понимании и воспроизведении сложных пространственных взаимосвязей.

Новое исследование выявляет слабые места современных моделей преобразования текста в изображения в понимании и воспроизведении сложных пространственных взаимосвязей.

Новая система AnthropoCam позволяет преображать изображения, отражая эстетику эпохи влияния человека, прямо на вашем смартфоне.

Исследование показывает, как смешанные команды, включающие людей с разными визуальными способностями, адаптируют информацию для совместной работы, выявляя скрытые механизмы координации.
![Модель обрабатывает визуальную информацию, включая изображения и видеопоследовательности, совместно со сложными лингвистическими инструкциями, посредством кодировщика визуальных данных и адаптера, после чего все входные токены объединяются и поступают в декодер [latex]Thinker[/latex], обеспечивая комплексное понимание и генерацию ответа.](https://arxiv.org/html/2601.21199v1/images/workflow.png)
Исследователи представили Thinker — масштабную модель, объединяющую зрение и язык для управления роботами и понимания окружающего мира.

Исследователи объединили передовые методы трассировки лучей и генерации Gaussian Splatting для создания иммерсивного и интерактивного опыта визуализации медицинских данных в виртуальной реальности.
![Опрос участников исследования выявил, что возможность преобразования звука в реальном времени представляется наиболее ценной функцией системы [latex]AAR[/latex], при этом респонденты указали на конкретные востребованные возможности.](https://arxiv.org/html/2601.21271v1/x2.png)
Исследование посвящено тому, как люди представляют себе интеграцию звукового дополненного пространства (ААR) в повседневную жизнь и какие возможности оно открывает.

Чип: Qualcomm SM8845 Snapdragon 8 Gen 5
Память: 12ГБ / 512 ГБ
Экран: 6.8″ OLED 165Гц
Батарея: 7400мАч
Оценка: 9 из 10

Новое исследование показывает, как пространственный звук может использоваться для мгновенного привлечения внимания пользователя в XR-средах, но требует точной калибровки восприятия.
Обзор показывает, что цифровые инструменты могут помочь взрослым с синдромом дефицита внимания и гиперактивности, но существующие решения часто не учитывают их реальные потребности.
![В системах передачи сообщений, визуализация [latex]t-SNE[/latex] показывает, что даже при использовании различных модальностей, структура сообщений сохраняет следы информации о частоте, изначально закодированной на низком перцептивном уровне, хотя кластеризация и менее выражена по сравнению с одномодальными системами.](https://arxiv.org/html/2601.22041v1/images/sender_messages_tsne_all_classes_shades-multimodal.png)
Новое исследование показывает, что различия в восприятии мира между взаимодействующими агентами влияют на эффективность коммуникации, но они способны адаптироваться и выработать общий язык.