Наука — Страница 85

Интеллектуальные помощники для мобильных устройств: новый уровень взаимодействия

29.12.2025 от Denis

Агент MAI-UI выполняет задачи графического интерфейса посредством комбинации операций с пользовательским интерфейсом и расширенных действий, включающих взаимодействие с пользователем и использование инструментов MCP, интегрируя при этом собственную систему совместной работы устройства и облака.

В статье представлен MAI-UI — агент, способный эффективно управлять графическим интерфейсом мобильных приложений и выполнять задачи в реальном времени.

Творим виртуальность взмахом руки: SketchPlay для интуитивного VR-моделирования

29.12.2025 от Denis

В ходе качественного анализа, система SketchPlay демонстрирует превосходство над существующими подходами, основанными на эскизах (SparseCtrl, SketchVideo, VidSketch), последовательно генерируя видеоролики с более высокой степенью физической реалистичности и минимальным количеством визуальных артефактов, что подтверждает эффективность предложенного физически обоснованного метода.

Новая система SketchPlay позволяет создавать реалистичные виртуальные сцены, используя жесты и эскизы в воздухе, делая VR-разработку доступнее и проще.

Гармония человека и искусственного интеллекта: Путь к взаимовыгодному сотрудничеству

29.12.2025 от Denis

В статье рассматривается концепция двусторонней адаптации человека и искусственного интеллекта, основанная на общих ценностях и направленная на построение будущего, в котором обе стороны выигрывают.

Видео по требованию: новый подход к управлению генерацией

28.12.2025 от Denis

Исследователи предложили метод, позволяющий более точно контролировать процесс создания видео с помощью моделей диффузии.

Речь без границ: Модель SpidR-Adapt для быстрой адаптации к новым языкам

28.12.2025 от Denis

$Система SpidR-Adapt, предназначенная для адаптации речевых моделей при малом количестве данных, использует многозадачное предварительное обучение с чередующимся контролем для формирования устойчивой начальной точки [latex]\bm{\phi}\_{0}[/latex], которую затем оптимизируют посредством MAdaPT-FOBLO, сочетающего адаптацию во внутреннем цикле с активным забыванием на неразмеченных данных и обновление во внешнем цикле, минимизирующее ожидаемые потери на размеченных данных, что позволяет быстро адаптировать полученную модель [latex]\bm{\phi}^{\*}[/latex] к новым, ранее не встречавшимся доменам, используя исключительно неразмеченные данные.$

Новая модель машинного обучения позволяет значительно сократить объем данных, необходимых для распознавания речи на ранее неизвестных языках.

Трехмерные карты спектра: новый подход к семантической коммуникации с БПЛА

28.12.2025 от Denis

В исследовании демонстрируется возможность использования беспилотных летательных аппаратов (БПЛА) для семантической связи при трехмерном мониторинге спектра, осуществляемого по ограниченным траекториям, что позволяет эффективно собирать и анализировать данные о радиочастотном спектре.

Исследователи предлагают инновационную систему, использующую знания о физическом мире для эффективного создания и обновления трехмерных карт спектра с помощью беспилотных летательных аппаратов.

Восстановление 3D-материалов: Новый подход к мгновенной многовидовой обратной визуализации

28.12.2025 от Denis

Исследователи представили MVInverse — систему, позволяющую быстро и точно восстанавливать свойства материалов объектов по нескольким изображениям.

Медицинская визуализация: когда текст подсказывает, что сегментировать

28.12.2025 от Denis

Новая архитектура TGC-Net позволяет точно выделять объекты на медицинских изображениях, используя текстовые описания и передовые модели, объединяющие зрение и язык.

Ожившие жесты: 3D-реконструкция языка жестов с помощью DexAvatar

27.12.2025 от Denis

$Разработанный конвейер DexAvatar, используя SMPLerX и HaMeR для первоначальной оценки поз тела и рук, уточняет эти оценки путем подгонки к двумерным ключевым точкам, минимизируя ошибку репроекции [latex]\mathcal{L}_{\text{joint}}[/latex] для обнаруженных суставов [latex]\mathcal{K}_{i}[/latex]. Для генерации правдоподобных артикуляций тела и рук, позы ограничиваются изученными многообразиями, где SignBPoser отображает латентное пространство тела [latex]\zeta[/latex] в [latex]\theta_{b}[/latex], а SignHPoser отображает независимые латенты для левой и правой рук [latex]\epsilon^{\ell}[/latex] и [latex]\epsilon^{r}[/latex] в [latex]\theta_{h}[/latex], при этом биомеханические ограничения обеспечивают физически правдоподобную артикуляцию, создавая точные трехмерные модели жестов.$

Новый метод позволяет создавать реалистичные 3D-аватары, воспроизводящие язык жестов на основе анализа видеозаписи.

Лица в сети: Защита от реалистичных дипфейков

27.12.2025 от Denis

Новая разработка предлагает эффективный способ защиты видео от подделок, созданных с использованием передовых технологий 3D-моделирования лиц.