Искусственный интеллект, который мыслит и действует: новая архитектура для обучения роботов

Агент BiTAgent обеспечивает двунаправленную связь между большой многомодальной языковой моделью и моделью мира, используя модулярное слияние, ориентированное на задачу, для семантически управляемой симуляции, при этом вознаграждения и действия, полученные из смоделированных траекторий, обратно распространяются через совместную функцию потерь для уточнения языковой модели.

Исследователи представили BiTAgent — систему, объединяющую возможности больших языковых моделей и моделей мира для создания более адаптивных и разумных агентов.

Городские прогулки с интеллектом: новые возможности планирования маршрутов

Система WalkRAG обрабатывает запросы пользователей, такие как прокладка маршрута от собора Парижской Богоматери до Эйфелевой башни, направляя их в модуль QUAG, который, в свою очередь, передает задачу в компонент пространственного планирования для построения маршрута и оценки его проходимости, после чего, используя языковую модель, ответ возвращается пользователю, обеспечивая возможность дальнейшего диалога и получения более подробной информации, например, о Марсовом поле, при этом запросы направляются в модуль информационного поиска для извлечения релевантных данных, которые также интерпретируются языковой моделью перед представлением пользователю.

Исследователи разработали систему, использующую искусственный интеллект для создания персонализированных и удобных пешеходных маршрутов по городу, учитывающих контекст и особенности местности.

Разделяй и властвуй: Новый подход к многоканальному зрению

Сеть DisentangleFormer обрабатывает входные признаки посредством слоя внедрения, после чего разделяет их на параллельные пути обработки - канальный ($C, HW$) и пространственный ($HW, C$) трансформаторы, выходные данные которых объединяются с помощью Squeezed Token Enhancer (STE) и многомасштабной прямой нейронной сети (MS-FFN), при этом оба трансформатора используют стандартные слои кодировщика с многоголовочным самовниманием, подробная структура модулей представлена в дополнительном материале.

Исследователи представили архитектуру DisentangleFormer, позволяющую более эффективно обрабатывать многоканальные изображения, такие как гиперспектральные данные, за счет разделения пространственной и канальной информации.

XRP: Единственная зелень в топ-10; Пытается ли она играть в трудности? 🤔

К сожалению, цена пока не готова к брейкдансу: находясь около $2.05, XRP сегодня упал на 4%, подтверждая, что он все еще застрял в своем нисходящем канале. Он не желает вырываться выше 50-, 100- и 200-дневных линий тренда — этих настойчивых гремлинов сопротивления. Что касается графиков? Ну, они выглядят примерно так же многообещающе, как размокшее печенье. Попытки пробить сопротивление? Безрезультатно, просто свечи отклонения дают ему холодный отпор.

Восстановление формы сквозь преграды: новый подход к 3D-реконструкции

Разработанный подход к реконструкции трехмерных объектов в условиях частичной видимости объединяет эмпирические априорные знания о форме объектов с физически обоснованной информацией о контактах, что позволяет достичь высококачественного и точного восстановления геометрии.

Исследователи предлагают инновационный метод 3D-реконструкции объектов, эффективно справляющийся с окклюзиями и использующий как вероятностные модели, так и физические принципы взаимодействия.