Интеллектуальные помощники для мобильных устройств: новый уровень взаимодействия

В статье представлен MAI-UI — агент, способный эффективно управлять графическим интерфейсом мобильных приложений и выполнять задачи в реальном времени.

В статье представлен MAI-UI — агент, способный эффективно управлять графическим интерфейсом мобильных приложений и выполнять задачи в реальном времени.

Новая система SketchPlay позволяет создавать реалистичные виртуальные сцены, используя жесты и эскизы в воздухе, делая VR-разработку доступнее и проще.
В статье рассматривается концепция двусторонней адаптации человека и искусственного интеллекта, основанная на общих ценностях и направленная на построение будущего, в котором обе стороны выигрывают.

Исследователи предложили метод, позволяющий более точно контролировать процесс создания видео с помощью моделей диффузии.
![Система SpidR-Adapt, предназначенная для адаптации речевых моделей при малом количестве данных, использует многозадачное предварительное обучение с чередующимся контролем для формирования устойчивой начальной точки [latex]\bm{\phi}\_{0}[/latex], которую затем оптимизируют посредством MAdaPT-FOBLO, сочетающего адаптацию во внутреннем цикле с активным забыванием на неразмеченных данных и обновление во внешнем цикле, минимизирующее ожидаемые потери на размеченных данных, что позволяет быстро адаптировать полученную модель [latex]\bm{\phi}^{\*}[/latex] к новым, ранее не встречавшимся доменам, используя исключительно неразмеченные данные.](https://arxiv.org/html/2512.21204v1/x1.png)
Новая модель машинного обучения позволяет значительно сократить объем данных, необходимых для распознавания речи на ранее неизвестных языках.

Исследователи предлагают инновационную систему, использующую знания о физическом мире для эффективного создания и обновления трехмерных карт спектра с помощью беспилотных летательных аппаратов.
Исследователи представили MVInverse — систему, позволяющую быстро и точно восстанавливать свойства материалов объектов по нескольким изображениям.

Новая архитектура TGC-Net позволяет точно выделять объекты на медицинских изображениях, используя текстовые описания и передовые модели, объединяющие зрение и язык.
![Разработанный конвейер DexAvatar, используя SMPLerX и HaMeR для первоначальной оценки поз тела и рук, уточняет эти оценки путем подгонки к двумерным ключевым точкам, минимизируя ошибку репроекции [latex]\mathcal{L}_{\text{joint}}[/latex] для обнаруженных суставов [latex]\mathcal{K}_{i}[/latex]. Для генерации правдоподобных артикуляций тела и рук, позы ограничиваются изученными многообразиями, где SignBPoser отображает латентное пространство тела [latex]\zeta[/latex] в [latex]\theta_{b}[/latex], а SignHPoser отображает независимые латенты для левой и правой рук [latex]\epsilon^{\ell}[/latex] и [latex]\epsilon^{r}[/latex] в [latex]\theta_{h}[/latex], при этом биомеханические ограничения обеспечивают физически правдоподобную артикуляцию, создавая точные трехмерные модели жестов.](https://arxiv.org/html/2512.21054v1/Figures/pipeline.png)
Новый метод позволяет создавать реалистичные 3D-аватары, воспроизводящие язык жестов на основе анализа видеозаписи.

Новая разработка предлагает эффективный способ защиты видео от подделок, созданных с использованием передовых технологий 3D-моделирования лиц.