Визуальное управление роботами: точное манипулирование без текстур

В рамках разработанной системы визуального сервопривода, расширенный фильтр Калмана [latex]EKF[/latex] объединяет данные ключевых точек с априорной информацией о движении, обеспечивая надежное определение шестимерных координат объекта и его ориентации в пространстве.

Новый подход к визуальному сервоуправлению позволяет роботам надежно захватывать и перемещать объекты без выраженной текстуры, используя информацию с RGB-D камер и алгоритмы фильтрации Калмана.

Воссоздание мира вокруг нас: 3D-модели из обычных видео

Предлагаемый подход ForeHOI использует диффузионную модель для одновременного восстановления замаскированных областей 2D-маски объекта и завершения 3D-модели, эффективно решая задачу реконструкции объектов при сильном перекрытии с рукой, что, в свою очередь, обеспечивает точную оценку 3D-позы объекта посредством последующей обработки.

Новая модель ForeHOI позволяет быстро и точно восстанавливать трехмерные объекты из видеозаписей взаимодействия рук с предметами, открывая возможности для робототехники и дополненной реальности.

Визуальный интеллект для интерфейсов: Новый подход к пониманию графических элементов

В рамках представленной архитектуры Trifuse извлекаются взаимодополняющие сигналы из различных модальностей - внимания многомодальных больших языковых моделей, текстовых данных оптического распознавания символов и визуальной семантики на уровне иконок - которые затем интегрируются посредством модуля Consensus-SinglePeak, моделирующего как согласованность между модальностями, так и дискриминационные пики внутри каждой из них, после чего двухступенчатый модуль локализации последовательно уточняет объединенную карту связей посредством обрезки и увеличения масштаба для точного определения целевого элемента графического интерфейса.

Исследователи представили систему Trifuse, позволяющую компьютерам более точно интерпретировать графический интерфейс пользователя, объединяя визуальную информацию, текст и иконки.