Зрение, которое действует: Новый взгляд на восприятие мира

Обзор посвящен активному визуальному восприятию — подходу, позволяющему системам не просто видеть, но и целенаправленно исследовать окружающую среду.

Обзор посвящен активному визуальному восприятию — подходу, позволяющему системам не просто видеть, но и целенаправленно исследовать окружающую среду.

Новый подход к интерполяции кадров видео использует возможности аудио- и текстовых подсказок для создания более реалистичных и когерентных видеопоследовательностей.

Исследователи предлагают инновационный подход к предсказанию движения, основанный на анализе частотной области и механизмах внимания, позволяющий повысить точность в сложных дорожных ситуациях.

Исследователи предлагают гибридный метод, объединяющий возможности компьютерного зрения и обработки текста для более точного извлечения информации из документов.

Новая модель демонстрирует, что видеоданных достаточно для обучения машин пониманию пространства и навигации в нём.

Новая система объединяет возможности больших языковых моделей с визуальным анализом, позволяя роботам лучше понимать окружающий мир и принимать более обоснованные решения.

Исследователи представили DepthScape — систему, позволяющую дизайнерам легко переходить от двумерных эскизов к сложным 2.5D визуализациям, используя возможности искусственного интеллекта.

Новая система VibOmni использует вибрации костной проводимости, улавливаемые встроенным датчиком IMU, для значительного улучшения качества речи в шумной обстановке.

Новая система FluxLab позволяет создавать интерактивные физические интерфейсы, способные изменять свою форму и воспринимать деформацию, открывая новые возможности для тактильного взаимодействия.

Новое исследование демонстрирует, как наделение искусственного интеллекта способностью к построению и использованию пространственных карт значительно улучшает его возможности в решении последовательных задач в реальных условиях.