Беспилотники, говорящие на языке команд: обзор навигации нового поколения

В статье представлен всесторонний анализ современного состояния и перспектив развития навигации беспилотных летательных аппаратов, управляемых визуальными и языковыми командами.

![Модель TokenFormer представляет многопольные признаки [latex]\mathcal{F}[/latex], последовательные токены поведения [latex]\mathcal{T}[/latex] и целевые признаки [latex]\mathcal{V}[/latex] в виде унифицированного потока токенов, обрабатываемого последовательно соединенными блоками унифицированного взаимодействия (UIB), каждый из которых сочетает в себе разработанный механизм внимания Bottom-Full-Top-Sliding (BFTS), применяющий полную причинно-следственную связь на неглубоких слоях и сокращенное скользящее окно внимания (SWA) на более глубоких, с представлением нелинейного взаимодействия признаков (NLIR) для мультипликативного взаимодействия признаков.](https://arxiv.org/html/2604.13737v1/x2.png)



