Визуальное мышление в действии: ИИ осваивает навигацию в 3D-мире

Новая разработка позволяет искусственному интеллекту эффективно ориентироваться и перемещаться в сложных трехмерных пространствах, используя возможности обработки изображений и естественного языка.

![Система обработки электроэнцефалограмм, включающая энкодер ChannelNet и модуль уточнения схожести, преобразует входные данные в векторное представление [latex]𝐳[/latex], которое посредством матричного умножения с эмбеддингами словаря CLIP формирует логиты, после чего отбор наиболее значимых токенов (k=15) создает](https://arxiv.org/html/2603.17109v1/x1.png)





![Оценка поведенческой модели демонстрирует, что участники склонны переходить от низких к высоким латентным состояниям навыков под воздействием входных данных [latex] u_k = -1.57, -1.11 [/latex] и [latex] a_k = 0, \cdot s, 5 [/latex], при этом порядок латентных состояний навыков определяется средними значениями эмиссии [latex] RE [/latex].](https://arxiv.org/html/2603.12583v1/figures_arxiv/STM_1.11.png)
