Беспилотники, говорящие на языке команд: обзор навигации нового поколения

В статье представлен всесторонний анализ современного состояния и перспектив развития навигации беспилотных летательных аппаратов, управляемых визуальными и языковыми командами.

![Модель TokenFormer представляет многопольные признаки [latex]\mathcal{F}[/latex], последовательные токены поведения [latex]\mathcal{T}[/latex] и целевые признаки [latex]\mathcal{V}[/latex] в виде унифицированного потока токенов, обрабатываемого последовательно соединенными блоками унифицированного взаимодействия (UIB), каждый из которых сочетает в себе разработанный механизм внимания Bottom-Full-Top-Sliding (BFTS), применяющий полную причинно-следственную связь на неглубоких слоях и сокращенное скользящее окно внимания (SWA) на более глубоких, с представлением нелинейного взаимодействия признаков (NLIR) для мультипликативного взаимодействия признаков.](https://arxiv.org/html/2604.13737v1/x2.png)



![Роботизированные манипуляции рассматриваются как отображение визуальной информации в геометрические параметры [latex]f(v) \rightarrow G[/latex], где физические действия, такие как достижение, захват и ориентация, обусловлены трехмерным положением, вращением и пространственными отношениями, что указывает на превосходство подхода, основанного на взаимосвязи «зрение-геометрия», над преобладающими моделями «зрение-язык» или видеоанализом для обеспечения обобщенного управления роботами.](https://arxiv.org/html/2604.12908v1/x1.png)