Ожившие картинки: как нейросети учатся понимать взаимодействие человека и объектов

Новая разработка позволяет создавать реалистичные видеоролики, где человек взаимодействует с предметами, опираясь на визуальные подсказки и возможности генеративных моделей.



![На основе самообучения с учетом физических ограничений, изначально хаотичные поля нейронного скиннинга постепенно упорядочиваются, демонстрируя физическую согласованность, геометрическую ортогональность и пространственную гладкость, при этом веса скиннинга масштабируются до диапазона [-1, 1] относительно максимального абсолютного значения [latex]\bm{W}\_{i}[/latex] и центрируются вокруг нуля.](https://arxiv.org/html/2603.23194v1/x3.png)

