Виртуальные собеседники: Искусственный интеллект, который видит и реагирует

Новая система позволяет создавать виртуальных агентов, способных понимать пространственное окружение и естественным образом взаимодействовать с пользователем в реальном времени.
![Система генерации реалистичных сцен отслеживает положение головы и рук пользователя, используя модель [latex]UmeTrack[/latex] для представления движений кистей и пальцев с детализацией до 20 суставов, а затем, комбинируя двумерные изображения скелета руки с трёхмерными параметрами модели, посредством диффузионной трансформаторной сети (DiT) генерирует новые кадры, используя последние сгенерированные кадры и данные отслеживания как контекст.](https://arxiv.org/html/2602.18422v1/x2.png)





