Наука — Страница 89

Адаптация ИИ к Разным Пользователям: Новый Подход к Управлению Мозгом

31.01.2026 от Denis

Исследователи предлагают инновационный метод адаптации алгоритмов к индивидуальным особенностям мозга, значительно повышая точность систем управления на основе ЭЭГ.

Небесная Ловкость: Роботы, Видящие, Слушающие и Действующие

31.01.2026 от Denis

Платформа AIR-VLA представляет собой комплексное решение для систем воздушной манипуляции, объединяющее в себе инструменты сбора данных телеоперации на основе симуляции, онлайн-среду моделирования и разнообразные мультимодальные наборы данных, что позволяет проводить всестороннюю оценку современных моделей Vision-Language-Action и Vision-Language-Model в различных задачах воздушной манипуляции.

Новая платформа AIR-VLA объединяет возможности компьютерного зрения, обработки естественного языка и управления роботами для выполнения сложных задач в воздухе.

Иллюзии и Искусственный Зрение: Где Модели Видят, а Где Запоминают?

31.01.2026 от Denis

Новое исследование показывает, что современные модели, связывающие зрение и язык, часто полагаются на заученные паттерны, а не на истинное визуальное восприятие.

По взгляду о пользователе: предсказание состояния по данным отслеживания глаз

31.01.2026 от Denis

Новое исследование показывает, как глубокое обучение может анализировать движения глаз, чтобы оценить уровень усталости и когнитивную нагрузку пользователя, но межсубъектная обобщаемость остается сложной задачей.

Визуальные подсказки: как веб-агенты видят мир

31.01.2026 от Denis

Новое исследование показывает, как визуальные характеристики веб-страниц влияют на решения, принимаемые интеллектуальными агентами при поиске информации.

Воспоминания в цифре: Архитектура интерактивной памяти

31.01.2026 от Denis

Новая система сочетает искусственный интеллект и исторические изображения, чтобы стимулировать личные воспоминания и сохранять культурное наследие для людей с когнитивными нарушениями.

Где всё на своём месте: проверка пространственного мышления генеративных моделей

31.01.2026 от Denis

Исследование выявило случаи ошибок в восприятии, рассуждениях и взаимодействии с пространством у современных мультимодальных моделей, таких как GPT-Image-1, Qwen-Image и Bagel, подчеркивая несоответствие между форматами запросов и методами оценки, используемыми в текущих бенчмарках.

Новое исследование выявляет слабые места современных моделей преобразования текста в изображения в понимании и воспроизведении сложных пространственных взаимосвязей.

Эпоха Антропоцена в Кадре: Стиль и Скорость на Мобильных Устройствах

31.01.2026 от Denis

Система объединяет мобильное приложение с выбором контента и стиля с предварительно обученной моделью переноса стиля, что позволяет достичь переноса стиля в режиме, близком к реальному времени, непосредственно на мобильных устройствах.

Новая система AnthropoCam позволяет преображать изображения, отражая эстетику эпохи влияния человека, прямо на вашем смартфоне.

Команды с разными возможностями: как информация преображается для всех

31.01.2026 от Denis

Четыре модели трансформации и координации демонстрируют последовательное изменение состояний во времени, отражая закономерности эволюции систем и предсказывая будущие точки отказа.

Исследование показывает, как смешанные команды, включающие людей с разными визуальными способностями, адаптируют информацию для совместной работы, выявляя скрытые механизмы координации.

Мыслящий робот: новая модель для воплощенного интеллекта

31.01.2026 от Denis

Модель обрабатывает визуальную информацию, включая изображения и видеопоследовательности, совместно со сложными лингвистическими инструкциями, посредством кодировщика визуальных данных и адаптера, после чего все входные токены объединяются и поступают в декодер [latex]Thinker[/latex], обеспечивая комплексное понимание и генерацию ответа.

Исследователи представили Thinker — масштабную модель, объединяющую зрение и язык для управления роботами и понимания окружающего мира.