Повествование под контролем: как пространственное взаимодействие улучшает работу с большими языковыми моделями

Новый подход позволяет преобразовывать визуальные действия в точные инструкции для языковых моделей, значительно повышая эффективность анализа и понимания данных.
![Метод DeVI, работающий в трехмерной физической среде с участием человека и объектов, генерирует физически правдоподобные взаимодействия, используя видео-диффузионную модель в качестве планировщика движений, учитывающего текстовые запросы, описывающие желаемое взаимодействие [latex] \implies [/latex] взаимодействие определяется текстом и реализуется в физически достоверной анимации.](https://arxiv.org/html/2604.20841v1/x1.png)



![Байесовская модель восприятия двух тактильных стимулов демонстрирует, как априорные ожидания, определяемые средним значением [latex]\mu_t[/latex] и неопределенностью [latex]\sigma_t[/latex], комбинируются с функцией правдоподобия, центрированной на измеренном стимуле [latex]s_t^<i>[/latex], формируя апостериорное распределение [latex]p_{\text{post}}(s_t|s_t^</i>)[/latex], которое затем эволюционирует во времени с дисперсией [latex]\sigma_p^2[/latex] и используется для сравнения с последующим стимулом, определяя вероятность восприятия стимулов как равных в зависимости от разницы между ожидаемым и фактическим стимулом относительно неопределенности [latex]\sigma_{t+\delta t}[/latex].](https://arxiv.org/html/2604.19662v1/x2.png)

![На основе композиции из четырех изображений, охватывающих поле зрения в [latex]90^{\circ}[/latex], сформирована панорама в [latex]360^{\circ}[/latex], демонстрирующая расширенный обзор внешней среды.](https://arxiv.org/html/2604.19192v1/img/outdoor.jpeg)