Робот-визионер: ИИ предсказывает сложные манипуляции

В отличие от существующих моделей, демонстрирующих логические несостыковки и физическую неправдоподобность при генерации продолжительных видеороликов манипуляций роботом, разработанная иерархическая архитектура MIND-V успешно выполняет сложные инструкции на длительном горизонте, обеспечивая высокую визуальную достоверность и физическую точность, что подтверждает эффективность разделения высокоуровневого планирования и синтеза изображения на уровне пикселей для поддержания когерентности и пространственно-временной точности.

Новая разработка позволяет искусственному интеллекту генерировать реалистичные видеоролики, демонстрирующие долгосрочное планирование и выполнение сложных задач манипулирования объектами.

Оживляя изображения: создание реалистичных 3D-аватаров из одной фотографии

На основе единственного опорного изображения, предложенный метод Blur2Sharp значительно повышает фотореалистичность при синтезе новых поз и видов, вводя модуль генеративной доработки, обусловленный многоуровневой геометрической информацией, что позволяет эффективно устранять грубые и размытые артефакты, характерные для предыдущих подходов, и достигать более чёткого визуального качества и надёжной геометрической согласованности.

Новый подход Blur2Sharp позволяет генерировать высококачественные трехмерные модели человека с произвольными позами и ракурсами, используя всего лишь одно исходное изображение.

Пространственное мышление: новый взгляд на 3D-понимание

Система визуального вопросно-ответного анализа использует аллоцентрическую сетку для глобального понимания сцены и специальный токен, фокусирующий внимание на релевантных объектах, при этом контрастивная оптимизация представления этого токена с трёхмерными эмбеддингами объектов, полученными из многовидовых изображений, позволяет модели эффективно выделять семантически значимые цели, обеспечивая более точные ответы на запросы.

Исследователи предлагают инновационную модель, вдохновленную принципами работы центрального и периферийного зрения человека, для улучшения способности искусственного интеллекта воспринимать и анализировать трехмерные сцены.

Искусственный интеллект на службе сетевых процессоров: новый подход к проектированию

Архитектура условного вариационного автоэнкодера (CVAE), основанная на схеме кодировщик-декодировщик, позволяет моделировать сложные распределения данных и генерировать новые образцы, обусловленные заданными параметрами.

В статье рассматривается применение методов машинного обучения, в частности, диффузионных моделей, для автоматизации процесса проектирования сетевых процессоров (NoC) и оптимизации их характеристик.

Мозг под прицепом внимания: новые горизонты декодирования активности

Многомодальная схема декодирования состояний мозга позволяет интегрировать различные источники данных для точного определения текущего состояния мозга, используя комплексный подход к анализу нейронной активности.

Исследователи предлагают инновационный подход к анализу данных функциональной магнитно-резонансной томографии, объединяя возможности трансформеров и медицинских метаданных.