Искусственный интеллект, который мыслит и действует: новая архитектура для обучения роботов

Агент BiTAgent обеспечивает двунаправленную связь между большой многомодальной языковой моделью и моделью мира, используя модулярное слияние, ориентированное на задачу, для семантически управляемой симуляции, при этом вознаграждения и действия, полученные из смоделированных траекторий, обратно распространяются через совместную функцию потерь для уточнения языковой модели.

Исследователи представили BiTAgent — систему, объединяющую возможности больших языковых моделей и моделей мира для создания более адаптивных и разумных агентов.

Городские прогулки с интеллектом: новые возможности планирования маршрутов

Система WalkRAG обрабатывает запросы пользователей, такие как прокладка маршрута от собора Парижской Богоматери до Эйфелевой башни, направляя их в модуль QUAG, который, в свою очередь, передает задачу в компонент пространственного планирования для построения маршрута и оценки его проходимости, после чего, используя языковую модель, ответ возвращается пользователю, обеспечивая возможность дальнейшего диалога и получения более подробной информации, например, о Марсовом поле, при этом запросы направляются в модуль информационного поиска для извлечения релевантных данных, которые также интерпретируются языковой моделью перед представлением пользователю.

Исследователи разработали систему, использующую искусственный интеллект для создания персонализированных и удобных пешеходных маршрутов по городу, учитывающих контекст и особенности местности.

Разделяй и властвуй: Новый подход к многоканальному зрению

Сеть DisentangleFormer обрабатывает входные признаки посредством слоя внедрения, после чего разделяет их на параллельные пути обработки - канальный ($C, HW$) и пространственный ($HW, C$) трансформаторы, выходные данные которых объединяются с помощью Squeezed Token Enhancer (STE) и многомасштабной прямой нейронной сети (MS-FFN), при этом оба трансформатора используют стандартные слои кодировщика с многоголовочным самовниманием, подробная структура модулей представлена в дополнительном материале.

Исследователи представили архитектуру DisentangleFormer, позволяющую более эффективно обрабатывать многоканальные изображения, такие как гиперспектральные данные, за счет разделения пространственной и канальной информации.

XRP: Единственная зелень в топ-10; Пытается ли она играть в трудности? 🤔

К сожалению, цена пока не готова к брейкдансу: находясь около $2.05, XRP сегодня упал на 4%, подтверждая, что он все еще застрял в своем нисходящем канале. Он не желает вырываться выше 50-, 100- и 200-дневных линий тренда — этих настойчивых гремлинов сопротивления. Что касается графиков? Ну, они выглядят примерно так же многообещающе, как размокшее печенье. Попытки пробить сопротивление? Безрезультатно, просто свечи отклонения дают ему холодный отпор.