Прогнозирование траектории: новый взгляд без карт и с акцентом на детали

Архитектура сети, не требующая карты, включает в себя три основных модуля: модуль частотно-временного селективного внимания (FTSAM), модуль пространственного селективного внимания (SSAM) и многомодальный декодер, при этом для исторических траекторий используются фильтры в частотной области на основе MoE и моделирование мульти-временной гранулярности, позволяющие FTSAM и SSAM перевзвешивать избыточные временные характеристики и узлы взаимодействия соответственно, а декодер генерирует траектории, обучаясь как на уровне точек, так и на уровне патчей.

Исследователи предлагают инновационный подход к предсказанию движения, основанный на анализе частотной области и механизмах внимания, позволяющий повысить точность в сложных дорожных ситуациях.

Пространственный интеллект: как машины учатся ориентироваться в мире

В рамках структуры агентского воплощенного рассуждения для задачи EQA, модули, основанные на MLLM, используют трехмерный графический сценарий и сохраненные визуальные подсказки в пространственной памяти для логических выводов, при этом геометрический механизм проверки использует информацию о покрытии поля зрения для определения завершения задачи.

Новое исследование демонстрирует, как наделение искусственного интеллекта способностью к построению и использованию пространственных карт значительно улучшает его возможности в решении последовательных задач в реальных условиях.