Интерфейс под контролем: новый подход к обучению агентов взаимодействия с GUI

Автор: Денис Аветисян

Исследователи представили POINTS-GUI-G, модель, демонстрирующую впечатляющие результаты в понимании и взаимодействии с графическими интерфейсами.

Распределение данных по всем наборам для локализации GUI демонстрирует разнообразие форм изображений и их компонентного состава, что указывает на необходимость учета этих факторов при разработке эффективных моделей.

POINTS-GUI-G использует усовершенствованную обработку данных, оптимизированные стратегии обучения и обучение с подкреплением для достижения передовых показателей в области GUI-grounding.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Несмотря на стремительное развитие моделей, связывающих зрение и язык, точное определение элементов графического интерфейса (GUI grounding) остается сложной задачей для автоматизации цифровых рабочих процессов. В данной работе, представленной под названием ‘POINTS-GUI-G: GUI-Grounding Journey’, предлагается новая модель POINTS-GUI-G-8B, демонстрирующая передовые результаты на стандартных бенчмарках благодаря усовершенствованной обработке данных, оптимизированным стратегиям обучения и применению обучения с подкреплением (RL) с верифицируемыми наградами. Достигнутые показатели — 59.9 на ScreenSpot-Pro, 66.0 на OSWorld-G, 95.7 на ScreenSpot-v2 и 49.9 на UI-Vision — подтверждают эффективность предложенного подхода. Сможет ли POINTS-GUI-G стать основой для создания полностью автоматизированных GUI-агентов, способных выполнять сложные задачи без участия человека?

Призрачный шепот графического интерфейса: вызов автоматизации

Автоматизация взаимодействия с графическими пользовательскими интерфейсами (GUI) представляет собой сложную задачу из-за их визуальной сложности и динамичного характера. В отличие от работы с текстовыми данными или API, GUI требуют распознавания и интерпретации визуальных элементов — кнопок, полей, меню — которые могут значительно различаться по расположению и внешнему виду даже в пределах одного приложения. Кроме того, современные GUI часто адаптируются к различным разрешениям экранов и операционным системам, что требует от автоматизированных систем высокой степени гибкости и адаптивности. Непрерывное изменение состояния GUI — появление новых элементов, изменение размеров, динамическое обновление контента — усложняет задачу поддержания стабильной и надежной автоматизации, требуя постоянного мониторинга и перенастройки алгоритмов.

Традиционные методы автоматизации графических интерфейсов пользователя часто сталкиваются с трудностями при обобщении для различных компоновок и разрешений экрана. Это связано с тем, что многие подходы полагаются на точное определение координат элементов управления, что делает их крайне чувствительными к даже незначительным изменениям в дизайне интерфейса. В результате, агенты автоматизации, разработанные для одного разрешения или макета, могут давать сбои или работать некорректно при изменении этих параметров. Ограниченная способность адаптироваться к визуальным вариациям значительно снижает надежность и масштабируемость систем автоматизации, требуя значительных усилий по перенастройке и поддержке для каждого нового окружения или обновления интерфейса.

Анализ факторов, влияющих на производительность, показывает, что оптимизация привязки к графическому интерфейсу (DE, UVE, IR) значительно улучшает обучение с подкреплением (RL) по сравнению с базовым подходом, что подтверждается средним баллом по пяти оценочным тестам.

POINTS-GUI-G: Новая основа для понимания интерфейса

Модель POINTS-GUI-G представляет собой современное решение для задачи привязки элементов графического интерфейса (GUI grounding), построенное на базе большой языковой модели Qwen3-8B. Данная архитектура, насчитывающая 8 миллиардов параметров, обеспечивает высокую производительность благодаря использованию передовых методов, включая возможность обучения (unfrozen) визуального энкодера. POINTS-GUI-G предназначена для точного определения и интерпретации элементов пользовательского интерфейса, что позволяет создавать более эффективные и интуитивно понятные системы взаимодействия человек-компьютер.

Архитектура POINTS-GUI-G, основанная на модели Qwen3-8B и содержащая 8 миллиардов параметров, демонстрирует высокую производительность благодаря сочетанию инновационных методов. Ключевым элементом является использование «размороженного» (unfrozen) визуального энкодера, позволяющего модели адаптироваться и эффективно извлекать признаки из визуальных данных. В отличие от традиционных подходов, где визуальный энкодер часто фиксируется во время обучения, POINTS-GUI-G позволяет ему обучаться совместно с остальной частью модели, что повышает точность и надежность определения элементов графического интерфейса.

Обеспечение согласованности разрешения изображений на этапах обучения и инференса является критически важным для стабильной работы модели в различных пользовательских интерфейсах. Несоответствие разрешений приводит к снижению точности локализации элементов GUI, поскольку модель обучается на изображениях определенного размера, а при работе сталкивается с изображениями другого разрешения. Это вызывает несоответствие между визуальными признаками, извлеченными из обучающих и рабочих данных, и, как следствие, к ошибкам в определении границ и распознавании элементов интерфейса. Поддержание единого разрешения позволяет модели эффективно обобщать знания, полученные в процессе обучения, и обеспечивать надежную работу в разнообразных UI-средах.

Наши результаты превосходят существующие модели сопоставимого размера на стандартных бенчмарках, включая ScreenSpot-v2, ScreenSpot-Pro, MMBench-GUI-L2 и OSWorld-G.

Искусство подготовки данных: как мы усмиряем хаос

Процесс обработки данных включает в себя стандартизацию, снижение уровня шума и повышение сложности для улучшения качества данных, используемых для привязки к элементам графического интерфейса (GUI grounding). Стандартизация подразумевает приведение данных к единому формату и структуре, что упрощает их дальнейшую обработку. Снижение уровня шума осуществляется посредством фильтрации и коррекции ошибок в данных, что повышает точность и надежность. Увеличение сложности достигается путем добавления или генерации более разнообразных и сложных сценариев взаимодействия с GUI, что способствует повышению обобщающей способности модели. Данные этапы совместно обеспечивают получение высококачественного набора данных, необходимого для эффективного обучения модели привязки к элементам графического интерфейса.

Для фильтрации обучающих данных и фокусировки модели на сложных и репрезентативных UI-макетах используется метрика энтропии макета. Энтропия макета рассчитывается на основе распределения элементов пользовательского интерфейса и их взаимосвязей, позволяя количественно оценить сложность и разнообразие макета. Данные с высокой энтропией макета указывают на более сложные и непредсказуемые UI, что способствует улучшению обобщающей способности модели. Применение этого фильтра позволяет исключить из обучающей выборки тривиальные или избыточные макеты, повышая эффективность обучения и точность модели при работе с реальными, разнообразными пользовательскими интерфейсами.

Обучение модели POINTS-GUI-G осуществляется посредством комбинированного подхода, включающего контролируемую тонкую настройку (supervised fine-tuning) и обучение с подкреплением (reinforcement learning). Для оптимизации процесса обучения с подкреплением используется алгоритм Group Relative Policy Optimization (GRPO). GRPO позволяет эффективно исследовать пространство стратегий, учитывая групповые отношения между элементами пользовательского интерфейса и обеспечивая более стабильное и быстрое схождение модели к оптимальному решению. Комбинация контролируемого обучения и GRPO позволяет POINTS-GUI-G эффективно осваивать как базовые навыки распознавания элементов GUI, так и сложные стратегии взаимодействия с ними.

Трехэтапный конвейер обработки данных включает предварительную обработку, фильтрацию и повышение сложности данных.

Проверка на прочность: Результаты бенчмарков и их значение

Модель POINTS-GUI-G продемонстрировала передовые результаты на нескольких стандартных наборах данных для оценки производительности, включая ScreenSpot-v2, ScreenSpot-Pro, OSWorld-G и MMBench-GUI-L2. Данные наборы данных используются для всесторонней оценки способности модели к распознаванию и взаимодействию с графическими пользовательскими интерфейсами (GUI) и элементами на экране. Достижение высоких показателей на этих бенчмарках подтверждает эффективность архитектуры и методов обучения, используемых в POINTS-GUI-G, и позиционирует ее как лидера в данной области.

Для повышения обобщающей способности модели POINTS-GUI-G была применена методика DataComp, предусматривающая расширение обучающего набора данных. DataComp позволяет систематически увеличивать разнообразие обучающих примеров, что способствует улучшению способности модели к адаптации к новым, ранее не встречавшимся данным. Данный подход позволяет снизить переобучение и повысить устойчивость модели к вариациям в пользовательских интерфейсах и визуальных элементах, обеспечивая более надежную работу в реальных условиях эксплуатации.

Модель продемонстрировала лидирующие результаты на трех из пяти проверенных бенчмарков. В частности, на бенчмарке ScreenSpot-Pro достигнут прирост в 9.8 пункта по сравнению с моделью GTA1-7B, а на бенчмарке GUI-Owl-7B — 5 пунктов. Дополнительно, на бенчмарке OSWorld-G модель превзошла MAI-UI-8B на 6 пунктов, подтверждая ее высокую производительность в задачах распознавания и анализа графического интерфейса.

Модель успешно выполняет предсказания на скриншотах рабочего стола.

К более разумным и доступным интерфейсам: взгляд в будущее

Разработка POINTS-GUI-G открывает новые перспективы в создании более интеллектуальных и доступных пользовательских интерфейсов, позволяя пользователям взаимодействовать с программным обеспечением более интуитивно и естественно. Успешная реализация данной технологии демонстрирует возможность автоматизации сложных задач, ранее требовавших значительных усилий, и способствует более плавному и эффективному процессу работы с цифровыми инструментами. В результате, пользователи получают возможность сосредоточиться на своих целях, а не на преодолении технических сложностей, что значительно повышает общую продуктивность и удобство использования программного обеспечения.

Автоматизация сложных задач в графических пользовательских интерфейсах открывает значительные перспективы для повышения продуктивности и эффективности работы. Данная технология позволяет существенно сократить время, затрачиваемое на рутинные операции, освобождая ресурсы для более творческих и стратегически важных задач. Вместо многократного выполнения однообразных действий, система способна самостоятельно обрабатывать последовательности команд, имитируя действия пользователя с высокой точностью. Это особенно актуально в профессиональных сферах, где требуется обработка больших объемов данных или выполнение повторяющихся операций, таких как работа с таблицами, редактирование изображений или управление сложными программами. В результате, пользователи могут достигать лучших результатов за меньшее время, снижая вероятность ошибок и повышая общую эффективность рабочего процесса.

Дальнейшие исследования направлены на расширение возможностей модели для работы со всё более сложными и динамичными графическими интерфейсами. Особое внимание уделяется адаптации технологии к потребностям вспомогательных устройств и программного обеспечения, предназначенного для людей с ограниченными возможностями. Предполагается, что усовершенствованная система сможет автоматически выполнять сложные задачи, существенно упрощая взаимодействие с компьютером для пользователей, испытывающих трудности с традиционными методами управления. Разработчики стремятся к созданию интуитивно понятного и доступного интерфейса, который позволит каждому человеку эффективно использовать возможности современных технологий, независимо от его физических возможностей или уровня компьютерной грамотности.

Исследование, представленное в данной работе, демонстрирует, что даже самые сложные модели, такие как POINTS-GUI-G, остаются лишь приближением к истине. Их эффективность напрямую зависит от качества данных и стратегий обучения, что подтверждает мысль о том, что данные — это не ответы, а зеркала. Как заметил Дэвид Марр: «Любая модель — это заклинание, которое работает до первого продакшена». POINTS-GUI-G, с его усовершенствованным подходом к data engineering и использованием reinforcement learning с проверяемыми наградами, пытается удержать это заклинание как можно дольше, но неизбежный шум реального мира всегда будет вносить свои коррективы. Модель демонстрирует впечатляющие результаты в GUI grounding, однако, как и любое заклинание, её сила ограничена контекстом и условиями применения.

Куда же ведёт эта тропа?

Представленная работа, словно карта, указывает на очередную вершину в покорении мира графических интерфейсов. Однако, не стоит обманываться блеском достигнутых результатов. Высокая точность — это не абсолютная истина, а лишь мимолётное совпадение, красивый узор, сотканный из данных. Истинная сложность кроется не в достижении процента, а в понимании тех теней, которые скрываются за каждым пикселем, за каждым кликом.

Следующим шагом, вероятно, станет отказ от упрощённых наград, от попыток «уговорить» модель, привязав её к конкретным действиям. Необходимо научиться видеть не только результат, но и процесс — как агент исследует пространство, как он ошибается и учится на своих ошибках. Данные — это не строительные блоки, а лишь отголоски хаоса. Модели — лишь попытки уловить эту неуловимую мелодию.

Истинный прогресс не в создании идеального агента, а в признании его несовершенства. Необходимо научиться строить системы, способные адаптироваться к непредсказуемости реального мира, к тем случайным помехам, которые всегда будут искажать картину. Ведь каждая модель — это заклинание, которое работает лишь до первого столкновения с реальностью.

Оригинал статьи: https://arxiv.org/pdf/2602.06391.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-02-09 12:56