Роботы учатся понимать награды: новый подход к управлению движением
![В рамках предложенной системы MoVLR оптимизация стратегии позволяет получить высокоразмерную динамику мускулоскелетной системы, а затем, посредством оценки соответствующего видео движения [latex]\boldsymbol{\zeta}^{(i)}[/latex] визуально-лингвистической моделью (VLM), происходит обновление наилучшего дизайна вознаграждения [latex]r^{\*}[/latex] и формирование предложений по биомеханическим улучшениям [latex]\mathcal{F}[/latex], используемых для уточнения генерации вознаграждения [latex]r^{(i+1)}[/latex] языковой моделью.](https://arxiv.org/html/2512.23077v1/x1.png)
Исследователи разработали систему, позволяющую роботам автоматически определять, какие действия приводят к желаемому результату, используя возможности компьютерного зрения и обработки естественного языка.



![В исследовании рассматривается взаимодействие векторов атак, уязвимостей, состояния сети и механизмов устойчивости, при этом выделяются три класса защиты: проактивная (предупреждающая и укрепляющая защиту от уязвимостей), реактивная (адаптирующаяся к текущему состоянию сети [latex]X_t[/latex]) и ретроспективная (использующая результаты прошлых действий [latex]Y_t[/latex] для повышения будущей устойчивости).](https://arxiv.org/html/2512.22721v1/Figures/resilienceMechanism.png)



