Воссоздание мира вокруг нас: 3D-модели из обычных видео

Предлагаемый подход ForeHOI использует диффузионную модель для одновременного восстановления замаскированных областей 2D-маски объекта и завершения 3D-модели, эффективно решая задачу реконструкции объектов при сильном перекрытии с рукой, что, в свою очередь, обеспечивает точную оценку 3D-позы объекта посредством последующей обработки.

Новая модель ForeHOI позволяет быстро и точно восстанавливать трехмерные объекты из видеозаписей взаимодействия рук с предметами, открывая возможности для робототехники и дополненной реальности.

Визуальный интеллект для интерфейсов: Новый подход к пониманию графических элементов

В рамках представленной архитектуры Trifuse извлекаются взаимодополняющие сигналы из различных модальностей - внимания многомодальных больших языковых моделей, текстовых данных оптического распознавания символов и визуальной семантики на уровне иконок - которые затем интегрируются посредством модуля Consensus-SinglePeak, моделирующего как согласованность между модальностями, так и дискриминационные пики внутри каждой из них, после чего двухступенчатый модуль локализации последовательно уточняет объединенную карту связей посредством обрезки и увеличения масштаба для точного определения целевого элемента графического интерфейса.

Исследователи представили систему Trifuse, позволяющую компьютерам более точно интерпретировать графический интерфейс пользователя, объединяя визуальную информацию, текст и иконки.