Власть перетаскивания: новый вызов для искусственного интеллекта

Автор: Денис Аветисян

Исследователи представляют DragOn — масштабный набор данных и бенчмарк для оценки способности моделей понимать и выполнять перетаскивания в графических интерфейсах.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Предложенный бенчмарк DragOn охватывает четыре области действий, связанных с перетаскиванием, где задача заключается в предсказании ограничивающих рамок источника и цели на скриншоте, при этом флаг упорядоченности указывает на семантическую значимость направления перетаскивания.

Представлен новый набор данных и бенчмарк DragOn для оценки и улучшения возможностей визуально-языковых моделей в автоматизации GUI-взаимодействий, основанных на перетаскивании.

Несмотря на значительный прогресс в области автоматизации графических интерфейсов, задачи, связанные с перетаскиванием элементов (drag-and-drop, выделение, изменение размера), остаются сложной проблемой для современных моделей. В данной работе представлена платформа ‘DragOn: A Benchmark and Dataset for Drag-Based GUI Interactions’ — масштабный набор данных и эталон для оценки и обучения моделей, работающих с перетаскиванием в различных пользовательских сценариях. Результаты экспериментов с проприетарными и открытыми моделями показали, что целевое обучение на специализированных данных позволяет значительно улучшить их производительность в задачах взаимодействия с графическим интерфейсом. Возможно ли дальнейшее повышение эффективности автоматизации цифровых задач за счет разработки более совершенных наборов данных и архитектур моделей, ориентированных на сложные взаимодействия с перетаскиванием?

За пределами кликов: Эволюция взаимодействия с GUI

Традиционные методы автоматизации графического интерфейса пользователя (GUI) зачастую базируются на последовательности простых кликов, что становится все более неэффективным в современных приложениях. В то время как ранее интерфейсы представляли собой набор дискретных элементов, активируемых точечными нажатиями, современные программы активно используют сложные жесты, перетаскивание объектов и взаимодействие с динамически изменяющимися элементами. Полагаясь исключительно на координаты и эмуляцию кликов, системы автоматизации не способны адекватно интерпретировать намерения пользователя и адаптироваться к меняющейся структуре интерфейса. Это приводит к хрупкости автоматизированных процессов, требующих постоянной перенастройки при малейших изменениях в приложении, и значительно ограничивает возможности создания действительно интеллектуальных агентов, способных эффективно взаимодействовать с современными GUI.

Переход к взаимодействию посредством перетаскивания элементов значительно усложняет задачи автоматизации графического интерфейса. В отличие от простых кликов, требующих лишь определения координат точки, перетаскивание подразумевает непрерывное отслеживание движения курсора и интерпретацию намерений пользователя на протяжении всего действия. Это требует не просто точного определения начальной и конечной точек, но и понимания траектории движения, скорости и даже ускорения, чтобы отличить намеренное перетаскивание от случайного смещения. Разработка алгоритмов, способных надежно распознавать такие сложные последовательности действий и адаптироваться к различным элементам интерфейса и стилям взаимодействия, представляет собой серьезную задачу для современных систем автоматизации и искусственного интеллекта.

Существующие методы автоматизации графических интерфейсов часто сталкиваются с трудностями при обобщении действий на разнообразные элементы управления и намерения пользователя. Это связано с тем, что каждый интерфейс уникален, и даже незначительные изменения в дизайне или функциональности могут потребовать полной переработки автоматизированных сценариев. Особенно остро проблема проявляется при работе со сложными взаимодействиями, такими как перетаскивание или манипуляции с визуальными объектами, где точность и понимание контекста критически важны. Ограниченная способность к обобщению существенно сдерживает развитие автономных агентов, способных эффективно использовать компьютерные приложения, поскольку требует создания отдельных решений для каждого конкретного случая, что является трудоемким и неэффективным процессом.

Агент демонстрирует способность к перетаскиванию объектов, о чем свидетельствует соответствие между выполненным действием (красная стрелка) и наблюдаемым состоянием среды.

DragOn: Новый стандарт в оценке мастерства перетаскивания

Набор данных DragOn представляет собой масштабный и разнообразный эталон для оценки взаимодействий, основанных на перетаскивании, при использовании компьютера. Он включает в себя 286 тысяч скриншотов и 3,5 миллиона задач, что делает его на один-два порядка величины больше, чем предыдущие корпуса данных, ориентированные на подобные взаимодействия. Разнообразие задач и масштаб набора данных позволяют проводить всестороннее тестирование и оценку моделей, предназначенных для автоматизации GUI-взаимодействий, и способствуют разработке более универсальных и надежных агентов для работы с графическим интерфейсом.

Набор данных DragOn охватывает несколько ключевых областей действий, включающих выделение текста, выбор ячеек в таблицах, изменение размеров элементов графического интерфейса и манипулирование ползунками. Эти области представляют собой типичные взаимодействия пользователя с графическим интерфейсом, требующие точного управления курсором и выполнения определенных действий в ответ на визуальные подсказки. Включение этих разнообразных задач позволяет оценить способность моделей к обобщению и адаптации к различным сценариям использования, что важно для создания универсальных агентов, взаимодействующих с GUI.

Набор данных DragOn содержит 286 тысяч скриншотов и 3.5 миллиона задач, что на один-два порядка величины превосходит существующие ранее корпусы данных для обучения моделей, работающих с взаимодействиями, основанными на перетаскивании. Такой масштаб позволяет проводить более надежные и статистически значимые оценки производительности моделей при решении задач, связанных с GUI, и способствует разработке более обобщенных и эффективных агентов для автоматизации работы с графическим интерфейсом пользователя.

Набор данных DragOn обеспечивает возможность проведения всестороннего тестирования моделей на широком спектре реалистичных задач, выполняемых в графическом интерфейсе пользователя. Объем и разнообразие представленных сценариев — выделение текста, выбор ячеек, изменение размеров элементов и манипулирование ползунками — позволяют оценить способность моделей к обобщению и адаптации к различным типам взаимодействия. Благодаря количеству в 3.5 миллиона задач, основанных на 286 тысячах скриншотах, DragOn предоставляет статистически значимую основу для оценки и сравнения различных подходов к разработке универсальных агентов, способных эффективно работать с GUI.

Рендеринг как надзор: Автоматизация точной разметки GUI

Метод Rendering-as-Supervision представляет собой экономически эффективный способ генерации данных для привязки элементов графического интерфейса (GUI-grounding data). Вместо трудоемкой ручной разметки, данный подход использует информацию о геометрии, полученную от рендерера, для автоматического создания точных аннотаций. Это позволяет значительно снизить затраты на создание размеченных данных, необходимых для обучения моделей, взаимодействующих с GUI, и повысить точность определения местоположения и характеристик элементов интерфейса.

Метод «Рендеринг как надзор» (Rendering-as-Supervision) позволяет получать точные аннотации графических элементов интерфейса (GUI) без ручной разметки, используя геометрические данные, предоставляемые графическим рендерером. Вместо трудоемкого процесса ручного определения границ и типов элементов, система автоматически извлекает точную информацию о координатах, размерах и структуре GUI непосредственно из данных рендеринга. Это достигается путем анализа геометрии сцены, что гарантирует высокую точность аннотаций, исключая ошибки, связанные с человеческим фактором, и обеспечивая полную соответствие между аннотациями и визуальным представлением GUI.

В рамках подхода Rendering-as-Supervision реализованы методы Analytical Label Map и Probe-Based Label Map, демонстрирующие гибкость данной технологии. Analytical Label Map использует аналитические расчеты, основанные на геометрии элементов GUI, для точного определения границ и идентификаторов каждого элемента. Probe-Based Label Map, в свою очередь, применяет систему “зондов”, виртуальных точек, для определения принадлежности пикселей конкретным GUI-компонентам. Оба метода позволяют автоматически генерировать высокоточные аннотации без необходимости ручной разметки, что обеспечивает масштабируемость и эффективность процесса обучения моделей для взаимодействия с графическими интерфейсами.

Подход Rendering-as-Supervision позволяет существенно снизить проблему нехватки данных при обучении моделей для взаимодействия со сложными графическими интерфейсами. Традиционно, создание размеченных данных для обучения таких моделей требует значительных трудозатрат на ручную аннотацию элементов GUI. Данный метод, автоматизируя процесс генерации разметок на основе данных, полученных из рендерера, позволяет создавать большие объемы точных данных с минимальными усилиями. Это особенно важно для задач, требующих обучения моделей пониманию сложных GUI, включающих множество элементов и взаимодействий, где сбор достаточного количества размеченных данных вручную является крайне ресурсоемким и ограничивающим фактором.

Модели «зрение-язык» покоряют перетаскивание: Новый уровень взаимодействия

В рамках эталонного набора данных DragOn, модели, сочетающие возможности компьютерного зрения и обработки естественного языка (Vision-Language Models, VLMs), выступают в качестве основной системы оценки. Такой подход позволяет комплексно анализировать способность моделей не только визуально воспринимать объекты и их взаимодействие, но и понимать инструкции, заданные на естественном языке, что критически важно для задач, связанных с перетаскиванием и манипулированием объектами в цифровой среде. Использование VLMs в качестве ключевого инструмента оценки открывает новые возможности для разработки и совершенствования алгоритмов, способных эффективно решать задачи, требующие как визуального понимания, так и лингвистической интерпретации.

Модели, такие как Qwen3.5-VL, продемонстрировали значительный прогресс в задачах, связанных с перетаскиванием элементов на экране, после прохождения специализированного обучения на разработанном наборе данных DragOn. В результате тонкой настройки, общая доля успешно выполненных задач достигла 35,3%, что на 33 процентных пункта превышает показатели базовых моделей, не подвергавшихся подобной оптимизации. Этот существенный прирост эффективности подтверждает потенциал современных моделей обработки языка и зрения для решения интерактивных задач, требующих понимания визуальной информации и способности выполнять действия в цифровой среде.

Результаты исследований демонстрируют значительное превосходство разработанной системы над передовыми моделями в области взаимодействия с визуальной информацией. В частности, зафиксировано улучшение успешности выполнения задач на 7.6% по сравнению с лидером, моделью Claude Opus 4.7, которая показала результат в 27.7%. Данный прирост свидетельствует о перспективности предложенного подхода и открывает возможности для создания более эффективных и интуитивно понятных интерфейсов взаимодействия человека с компьютером, основанных на одновременной обработке визуальных данных и естественного языка.

Для обеспечения надёжной и воспроизводимой оценки моделей, в рамках исследования использовался API для доступа к большим языковым моделям (LLM). Такой подход позволяет стандартизировать процесс взаимодействия с различными LLM, упрощая сравнение их производительности и исключая влияние особенностей конкретной реализации. Использование API обеспечивает автоматизацию оценки, что критически важно при работе с большим количеством моделей и данными, а также позволяет исследователям легко интегрировать новые модели в систему оценки, поддерживая динамичное развитие области. Данная методология способствует объективному анализу и выявлению наиболее эффективных подходов в области взаимодействия зрения и языка.

Специализированная политика, обученная для работы с компьютером, успешно выполняет перетаскивание в задаче OSWorld libreoffice_calc_19, в то время как базовая политика общего назначения с той же архитектурой и количеством параметров терпит неудачу при той же начальной конфигурации.

Будущее интуитивного взаимодействия: Автоматизация GUI нового поколения

Методология Rendering-as-Supervision и эталонный набор данных DragOn продолжают играть ключевую роль в развитии автоматизации графических пользовательских интерфейсов. Данный подход, основанный на использовании синтезированных изображений для обучения моделей, позволяет создавать более устойчивые и эффективные системы, способные решать сложные задачи взаимодействия с компьютером. DragOn, предоставляя широкий спектр реалистичных сценариев использования, служит надежной платформой для оценки и сравнения различных алгоритмов автоматизации, стимулируя научные исследования и разработки в этой области. Ожидается, что дальнейшее совершенствование этих инструментов и методик позволит значительно расширить возможности автоматизации, сделав взаимодействие с технологиями более интуитивным и доступным для широкого круга пользователей.

Дальнейшие исследования в области автоматизации графического интерфейса пользователя направлены на повышение способности моделей к обобщению, то есть их умению успешно работать в различных, ранее не встречавшихся ситуациях. Особое внимание уделяется пониманию сложных намерений пользователя, выходящих за рамки простых команд, и адаптации к динамически меняющимся интерфейсам, где элементы и их расположение могут изменяться в процессе работы. Это потребует разработки алгоритмов, способных не только распознавать визуальные элементы, но и интерпретировать контекст действий пользователя, предсказывать его дальнейшие шаги и эффективно взаимодействовать с постоянно меняющейся средой. Успешное решение этих задач позволит создать интеллектуальных агентов, способных автоматизировать сложные задачи в различных приложениях и сделать взаимодействие с компьютером более интуитивным и эффективным.

Разработка по-настоящему интуитивных компьютерных агентов способна кардинально изменить взаимодействие человека и технологий. Эти агенты, способные понимать намерения пользователя без явных инструкций, откроют новые горизонты в доступности цифрового мира для людей с ограниченными возможностями и существенно повысят производительность труда. Представьте себе интерфейсы, которые адаптируются к потребностям каждого пользователя, автоматизируя рутинные задачи и предлагая решения, предвосхищающие запросы. Такой подход не только упростит использование компьютеров, но и позволит сосредоточиться на более творческих и значимых задачах, превращая технологию из инструмента, требующего освоения, в незаметного помощника, расширяющего возможности человека.

Исследование, представленное в данной работе, демонстрирует, что современные визуально-языковые модели испытывают трудности с пониманием и выполнением действий, основанных на перетаскивании элементов графического интерфейса. Это подчеркивает важность создания специализированных наборов данных, таких как DragOn, для улучшения способности этих моделей к автоматизации GUI. Как однажды заметил Алан Тьюринг: «Я думаю, что в будущем будет возможно создать машины, которые смогут думать». Создание DragOn, по сути, является шагом к реализации этого предвидения, позволяя машинам более эффективно взаимодействовать с визуальным миром и выполнять сложные задачи, требующие точности и понимания контекста. Успешное решение проблемы drag-grounding приближает нас к созданию более гибких и интеллектуальных систем автоматизации.

Что дальше?

Представленный набор данных DragOn, несомненно, выявляет слабость современных визуально-языковых моделей в области взаимодействия с графическим интерфейсом посредством перетаскивания. Однако, сама демонстрация этой слабости — лишь первый шаг. Более глубокое понимание причин неудач, вероятно, кроется не столько в недостатке данных, сколько в фундаментальной неадекватности существующих архитектур для моделирования динамических, основанных на физике взаимодействий. Каждое улучшение, каждая оптимизация, неизбежно создаёт новые точки напряжения в системе, требующие дальнейшей проработки.

В дальнейшем, усилия следует направить не только на увеличение объёма данных, но и на разработку новых методов обучения, учитывающих контекст и историю взаимодействия. Особенно перспективным представляется подход, рассматривающий рендеринг как форму надзора — возможность для модели «увидеть» последствия своих действий и корректировать поведение. Однако, следует помнить, что простое увеличение точности предсказаний не гарантирует появление истинного понимания.

Архитектура системы определяет её поведение во времени, а не схема на бумаге. Таким образом, будущее исследований в данной области, вероятно, связано с разработкой более элегантных и простых моделей, способных к обобщению и адаптации, а не с наращиванием сложности и параметризации. Иначе, мы рискуем создать систему, способную имитировать разум, но лишенную его сути.

Оригинал статьи: https://arxiv.org/pdf/2606.06322.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-06-07 05:07