Наука — Страница 164

Зрение, которое действует: Новый взгляд на восприятие мира

04.12.2025 от Denis

Активное визуальное восприятие открывает возможности для выявления закономерностей и структур в данных, позволяя системе не просто регистрировать информацию, но и активно её интерпретировать и использовать для более глубокого понимания окружающей среды.

Обзор посвящен активному визуальному восприятию — подходу, позволяющему системам не просто видеть, но и целенаправленно исследовать окружающую среду.

Оживляя движение: Как звук и текст помогают видео выглядеть плавнее

04.12.2025 от Denis

Основанный на архитектуре DiT, разработанный подход BBF использует конвейер обработки данных и механизм декодированной мультимодальной интеграции, что позволяет эффективно выполнять интерполяцию кадров видео при различных комбинациях модальностей и обеспечивает прогрессивное выравнивание в процессе обучения.

Новый подход к интерполяции кадров видео использует возможности аудио- и текстовых подсказок для создания более реалистичных и когерентных видеопоследовательностей.

Прогнозирование траектории: новый взгляд без карт и с акцентом на детали

04.12.2025 от Denis

Исследователи предлагают инновационный подход к предсказанию движения, основанный на анализе частотной области и механизмах внимания, позволяющий повысить точность в сложных дорожных ситуациях.

Документы видят мир: Новый подход к поиску информации

04.12.2025 от Denis

Исследователи предлагают гибридный метод, объединяющий возможности компьютерного зрения и обработки текста для более точного извлечения информации из документов.

Видео как ключ к пространственному интеллекту

03.12.2025 от Denis

Модели диффузии видео рассматриваются как инструменты пространственного рассуждения, в архитектуре которых контекстные и целевые кадры равноправны, за исключением того, что контекстные кадры лишены шума.

Новая модель демонстрирует, что видеоданных достаточно для обучения машин пониманию пространства и навигации в нём.

Артемида: Визуальное мышление для обучения роботов

03.12.2025 от Denis

Новая система объединяет возможности больших языковых моделей с визуальным анализом, позволяя роботам лучше понимать окружающий мир и принимать более обоснованные решения.

От 2D к 2.5D: Новые горизонты дизайна с помощью ИИ

03.12.2025 от Denis

Разработана система DepthScape, позволяющая человеку и искусственному интеллекту совместно создавать 2.5D визуальные проекты, где на основе входных изображений и реконструкции глубины, ИИ предлагает варианты компоновки элементов в неявном трехмерном пространстве, обеспечивая реалистичные эффекты перекрытия, соответствующие глубинной информации исходных данных.

Исследователи представили DepthScape — систему, позволяющую дизайнерам легко переходить от двумерных эскизов к сложным 2.5D визуализациям, используя возможности искусственного интеллекта.

Звук изнутри: Улучшение речи в наушниках с помощью костной проводимости

03.12.2025 от Denis

Технология VibOmni повышает качество речи в носимых устройствах, извлекая чистый голос пользователя из костной проводимости вибраций.

Новая система VibOmni использует вибрации костной проводимости, улавливаемые встроенным датчиком IMU, для значительного улучшения качества речи в шумной обстановке.

Интерфейсы будущего: 3D-печать и изменяемая форма

03.12.2025 от Denis

Новая система FluxLab позволяет создавать интерактивные физические интерфейсы, способные изменять свою форму и воспринимать деформацию, открывая новые возможности для тактильного взаимодействия.

Пространственный интеллект: как машины учатся ориентироваться в мире

03.12.2025 от Denis

В рамках структуры агентского воплощенного рассуждения для задачи EQA, модули, основанные на MLLM, используют трехмерный графический сценарий и сохраненные визуальные подсказки в пространственной памяти для логических выводов, при этом геометрический механизм проверки использует информацию о покрытии поля зрения для определения завершения задачи.

Новое исследование демонстрирует, как наделение искусственного интеллекта способностью к построению и использованию пространственных карт значительно улучшает его возможности в решении последовательных задач в реальных условиях.