Самообучающиеся агенты для мобильных интерфейсов: новый подход

Автор: Денис Аветисян

Исследователи предлагают инновационную систему памяти опыта, позволяющую агентам, управляемым обучением с подкреплением, быстрее осваивать и переносить навыки работы с мобильными приложениями.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Предлагаемая структура UI-Mem обеспечивает агента иерархическим опытом, включающим рабочие процессы, навыки выполнения подзадач и шаблоны неудач, при этом стратифицированная выборка групп позволяет генерировать траектории с различной степенью направленности для эффективной оценки преимуществ при оптимизации политики, а извлечение абстрактных планов из успешных траекторий и диагностика неудач в саморазвивающемся цикле способствуют постоянному совершенствованию и переносу опыта между задачами.

Представлена UI-Mem — иерархическая система памяти опыта, повышающая эффективность обучения с подкреплением в задачах автоматизации графических интерфейсов и обеспечивающая возможность переноса навыков между задачами.

Эффективное обучение агентов для взаимодействия с графическими интерфейсами требует преодоления проблем неэффективного распространения опыта и повторения ошибок. В данной работе, представленной под названием ‘UI-Mem: Self-Evolving Experience Memory for Online Reinforcement Learning in Mobile GUI Agents’, предлагается новый подход, использующий иерархическую память опыта для улучшения онлайн обучения с подкреплением. Разработанный фреймворк UI-Mem позволяет агентам накапливать структурированные знания о рабочих процессах, подзадачах и типичных ошибках, обеспечивая перенос опыта между задачами и приложениями. Сможет ли подобный подход к организации памяти опыта значительно повысить эффективность и обобщающую способность агентов, взаимодействующих со сложными графическими интерфейсами?

Преодоление разреженности вознаграждений в автоматизации GUI

Автоматизация задач в графическом интерфейсе пользователя с использованием обучения с подкреплением сталкивается с серьезной проблемой — разреженностью вознаграждения. Агент, взаимодействуя с интерфейсом, крайне редко получает сигнал об успешном выполнении действия, что существенно замедляет процесс обучения. В отличие от ситуаций, где агент получает постоянную обратную связь, в случае GUI-автоматизации положительное вознаграждение возникает лишь при полном и правильном выполнении сложной последовательности действий. Эта разреженность затрудняет исследование пространства состояний, поскольку агент испытывает трудности в определении, какие действия приводят к желаемому результату, и, как следствие, обучение становится неэффективным и требует значительных вычислительных ресурсов. Разреженное вознаграждение делает обучение агента хрупким и чувствительным к небольшим изменениям в интерфейсе или задаче.

Скудность обратной связи в автоматизации графических интерфейсов существенно затрудняет процесс исследования среды агентом. Когда вознаграждение за действия предоставляется лишь изредка, алгоритм обучения с подкреплением сталкивается с проблемой эффективного поиска оптимальной стратегии. Агент, не получая достаточного количества сигналов, чтобы оценить полезность тех или иных действий, вынужден полагаться на случайный выбор, что приводит к замедлению обучения и увеличению его стоимости. В результате, такие агенты часто оказываются хрупкими и неспособными адаптироваться к незначительным изменениям в интерфейсе или последовательности действий, требуя постоянной перенастройки и специфической настройки для каждого отдельного сценария.

Традиционные методы автоматизации графических интерфейсов пользователя часто сталкиваются с трудностями при обобщении на сложные рабочие процессы, что требует значительных усилий по специализированной разработке для каждого конкретного случая. Вместо того чтобы создавать универсальные решения, способные адаптироваться к различным приложениям и сценариям, существующие подходы обычно нуждаются в ручной настройке и адаптации алгоритмов для каждого нового типа интерфейса или задачи. Это связано с тем, что даже незначительные изменения в структуре интерфейса или последовательности действий могут существенно повлиять на производительность системы, требуя повторной разработки и отладки. В результате, масштабирование автоматизации на более сложные и разнообразные задачи становится трудоемким и дорогостоящим процессом, ограничивая потенциал применения автоматизированных систем в реальных условиях.

Предложенная схема обучения агентов для графических интерфейсов использует эволюционирующую память для иерархического управления исследованием и переноса знаний между задачами, решая проблемы разреженности вознаграждений и недостаточной эффективности, присущие стандартным методам обучения с подкреплением и подходам, использующим повторное воспроизведение опыта или плотные вознаграждения.

UI-Mem: Иерархическая память для расширенного исследования

UI-Mem расширяет возможности онлайн-обучения с подкреплением за счет внедрения иерархической памяти опыта. Данная память представляет собой структурированное хранилище, которое позволяет сохранять и повторно использовать успешные последовательности действий, освоенные навыки выполнения подзадач, а также информацию о неудачах. Использование иерархической организации позволяет эффективно индексировать и извлекать релевантный опыт, что существенно ускоряет процесс обучения агента в новых, схожих ситуациях, не требуя повторного прохождения полного цикла обучения с нуля. В отличие от традиционных методов, использующих плоское хранение опыта, UI-Mem обеспечивает более эффективное управление большим объемом данных и позволяет агенту быстрее адаптироваться к изменяющейся среде.

Иерархическая память UI-Mem хранит не только повторно используемые последовательности действий (рабочие процессы) и приобретенные навыки выполнения подзадач, но и, что критически важно, паттерны неудач, возникающие в процессе обучения с подкреплением. Сохранение информации о конкретных ситуациях, приведших к отрицательному результату, позволяет системе избегать повторения ошибок в будущем и более эффективно направлять процесс исследования пространства состояний. Эти паттерны неудач служат своего рода негативным вознаграждением, корректирующим стратегию агента и повышающим вероятность успешного завершения задачи.

Внедрение структурированных знаний посредством UI-Mem позволяет эффективно уплотнить сигнал вознаграждения в процессе обучения с подкреплением. Традиционно, разреженные сигналы вознаграждения замедляют обучение, поскольку агенту требуется значительное количество проб и ошибок для обнаружения полезных действий. UI-Mem, сохраняя информацию о успешных последовательностях действий, а также паттернах неудач, предоставляет агенту предварительные знания о структуре задачи. Это приводит к увеличению частоты получения полезного сигнала вознаграждения даже на ранних этапах обучения, что, в свою очередь, ускоряет сходимость и повышает эффективность алгоритма. По сути, UI-Mem трансформирует разреженный сигнал вознаграждения в более плотный и информативный, облегчая процесс обучения и позволяя агенту быстрее осваивать сложные задачи.

В основе механизма внедрения знаний из памяти в траектории обучения лежит стратифицированная групповая выборка (Stratified Group Sampling). Этот метод предполагает разделение пула хранимых траекторий на группы в зависимости от их характеристик и степени успешности. При генерации новых траекторий, алгоритм выбирает образцы из каждой группы пропорционально ее размеру и релевантности текущей задаче. Это позволяет обеспечить разнообразие исследуемых стратегий и одновременно повысить вероятность выбора перспективных путей, основываясь на ранее полученном опыте, включая информацию о неудачах. Стратификация обеспечивает сбалансированное представление различных типов траекторий, а групповая выборка оптимизирует процесс исследования за счет использования целых последовательностей действий, а не отдельных шагов.

Сравнение динамики обучения UI-Mem и стандартного GRPO показывает, что UI-Mem обеспечивает более высокую стабильность обучения благодаря снижению дисперсии внутри группы, что положительно влияет на точность оценки преимущества <span class="katex-eq" data-katex-display="false"> \mathbb{E}[A] </span>. — Сравнение динамики обучения UI-Mem и стандартного GRPO показывает, что UI-Mem обеспечивает более высокую стабильность обучения благодаря снижению дисперсии внутри группы, что положительно влияет на точность оценки преимущества $\mathbb{E}[A]$ .

Обучение на ошибках: Саморазвивающаяся система памяти

Система UI-Mem использует “Саморазвивающийся цикл” для непрерывного усовершенствования Иерархической Памяти Опыта. Этот цикл представляет собой итеративный процесс, в котором система анализирует результаты своих действий, выявляет закономерности и адаптирует свою модель опыта. В рамках цикла происходит постоянная оценка эффективности предпринятых действий и внесение корректив в Иерархическую Память Опыта, что позволяет системе повышать свою способность к обобщению и применению полученных знаний в новых ситуациях. Постоянное совершенствование памяти опыта достигается за счет циклической обработки данных и обновления параметров модели, обеспечивая её адаптацию к изменяющимся условиям и задачам.

В системе UI-Mem процесс абстракции используется для формирования параметризованных ‘Шаблонов’, представляющих собой обобщенные модели опыта. Вместо сохранения конкретных действий для каждого GUI-элемента, система извлекает общие закономерности и формирует структуры данных, описывающие типы задач и ожидаемые результаты. Эти ‘Шаблоны’ содержат переменные параметры, позволяющие адаптировать их к различным контекстам и GUI-элементам. Например, шаблон для «нажатия кнопки» может включать параметры, определяющие расположение кнопки на экране и ожидаемый результат нажатия. Такой подход позволяет значительно сократить объем необходимой памяти и повысить обобщающую способность системы, позволяя эффективно применять накопленный опыт к новым, ранее не встречавшимся ситуациям.

Система UI-Mem, анализируя паттерны неудачных действий, формирует базу данных негативного опыта. При обнаружении ситуации, схожей с ранее зафиксированной неудачей, система предотвращает повторение неэффективных действий. Вместо этого, используя данные о предыдущих успехах и текущем контексте, она активно исследует альтернативные стратегии, направленные на достижение поставленной цели. Этот механизм позволяет динамически адаптироваться к меняющимся условиям и повышать эффективность работы, избегая повторения ошибок и фокусируясь на перспективных подходах.

Интеграция мультимодальных больших языковых моделей, таких как Qwen3-VL, позволяет системе анализировать скриншоты графического интерфейса пользователя (GUI) и на их основе генерировать эффективные действия. Qwen3-VL, обладая возможностями обработки как текста, так и изображений, извлекает информацию из визуального представления GUI, идентифицируя элементы управления и их текущее состояние. На основе этого анализа модель формирует текстовые запросы, определяющие необходимые действия, такие как клики, ввод текста или выбор опций. Это позволяет системе автоматизировать взаимодействие с GUI, адаптироваться к различным интерфейсам и выполнять задачи без предварительного программирования специфических действий для каждого приложения.

Постоянно анализируя успешные и неудачные траектории, система совершенствует свою память и использует полученные знания для планирования последующих действий.

Эмпирическая валидация и эталонная производительность

Для всесторонней оценки возможностей UI-Mem проводилось тестирование на сложных эталонных задачах автоматизации графического интерфейса, включая AndroidWorld и AndroidLab. Эти бенчмарки представляют собой широкий спектр сценариев взаимодействия с мобильными приложениями, требующих надежного распознавания элементов интерфейса и последовательного выполнения действий. Использование именно этих платформ позволило объективно сравнить производительность UI-Mem с существующими решениями и продемонстрировать его способность к адаптации к различным приложениям и задачам. Результаты тестирования на AndroidWorld и AndroidLab стали ключевым показателем эффективности разработанной системы в реальных условиях использования.

Результаты исследований демонстрируют, что система UI-Mem достигла передового уровня успешности в 71.1% на бенчмарке AndroidWorld, превзойдя показатели закрытых коммерческих API, таких как Gemini-2.5-Pro и Seed1.8. Этот значительный прогресс указывает на высокую эффективность UI-Mem в автоматизации графических интерфейсов Android, позволяя ей надежно выполнять сложные задачи, которые ранее требовали ручного вмешательства или использования более ресурсоемких решений. Достигнутая успешность подтверждает потенциал системы для широкого применения в задачах тестирования, поддержки пользователей и автоматизации рабочих процессов на мобильных устройствах.

Система демонстрирует повышенную устойчивость и надежность благодаря способности использовать накопленные навыки выполнения отдельных подзадач и избегать повторения ошибок. Вместо того, чтобы каждый раз начинать с нуля, агент опирается на опыт, полученный при решении аналогичных задач в прошлом, что значительно повышает эффективность и снижает вероятность неудачи. Этот механизм позволяет не только быстрее адаптироваться к новым условиям, но и предвидеть потенциальные проблемы, обходя их заранее. В результате, система не просто выполняет поставленные задачи, но и демонстрирует способность к самообучению и улучшению своих характеристик с течением времени, становясь более предсказуемой и надежной в различных сценариях автоматизации графических интерфейсов.

Исследования показали, что модель UI-Mem-4B демонстрирует значительное превосходство над базовой моделью Qwen3-VL-4B, достигая успеха в 58.2% случаев выполнения задач автоматизации графического интерфейса. Особенно важно, что UI-Mem-4B не просто превосходит базовую модель, но и проявляет выраженную способность к обобщению полученных навыков на новые, ранее не встречавшиеся приложения. Успешность выполнения задач на этих «удержанных» приложениях варьируется, однако сам факт адаптации и эффективной работы в незнакомой среде подтверждает потенциал системы для создания надежных и универсальных агентов автоматизации.

Анализ компонентного состава UI-Mem показывает, что удаление отдельных компонентов оказывает существенное влияние на производительность всей системы.

К интеллектуальным GUI-агентам и адаптивной автоматизации

В дальнейшем планируется расширить возможности системы UI-Mem для работы со значительно более сложными графическими интерфейсами, включая приложения, требующие многоступенчатых взаимодействий и адаптации к динамически меняющимся условиям. Особое внимание будет уделено интеграции с передовыми языковыми моделями, что позволит системе не только выполнять действия, но и понимать намерения пользователя, предвосхищать его потребности и адаптировать автоматизацию под конкретный контекст. Такое сочетание позволит создавать интеллектуальных агентов GUI, способных к гибкому и эффективному решению задач в разнообразных приложениях, значительно превосходя традиционные методы автоматизации по уровню адаптивности и удобства использования.

Разработка методов автоматического обнаружения и извлечения повторно используемых навыков, представляющих собой отдельные подзадачи, значительно повысит адаптивность системы автоматизации графического интерфейса. Вместо жестко запрограммированных последовательностей действий, система сможет самостоятельно идентифицировать и сохранять шаблоны успешного выполнения типовых операций — например, заполнение форм, поиск информации или обработка данных. Это позволит ей гибко реагировать на изменения в интерфейсе приложения или новые требования пользователя, комбинируя уже известные навыки для решения новых задач. Автоматическое извлечение этих подзадач, а не их ручное определение, существенно снижает затраты на настройку и обслуживание системы, открывая возможности для создания действительно интеллектуальных и самообучающихся агентов автоматизации.

Развитие памяти системы с учётом индивидуальных предпочтений пользователя и контекстного анализа открывает перспективы для создания по-настоящему персонализированных сценариев автоматизации. Вместо универсальных решений, система сможет адаптироваться к манере работы конкретного пользователя, его привычкам и текущей ситуации. Например, учитывая время суток, местоположение или недавние действия, автоматизация сможет предлагать наиболее релевантные и удобные варианты выполнения задач. Такой подход позволит не просто автоматизировать рутинные операции, но и создать интеллектуального помощника, предвосхищающего потребности пользователя и оптимизирующего процесс взаимодействия с графическим интерфейсом, значительно повышая продуктивность и комфорт.

Сочетание иерархической памяти, способности к обучению на ошибках и мультимодального восприятия открывает новые горизонты в автоматизации графических интерфейсов. Системы, использующие иерархическую память, способны структурировать сложные задачи на более простые, управляемые компоненты, повышая эффективность и надежность выполнения. Способность к обучению на ошибках позволяет агентам адаптироваться к меняющимся условиям и непредсказуемым ситуациям, избегая повторения неудачных действий и оптимизируя стратегии. Наконец, мультимодальное восприятие, включающее анализ визуальной информации, текста и других типов данных, позволяет агенту более полно понимать контекст и взаимодействовать с интерфейсом пользователя, как это делает человек. Такой комплексный подход обещает преодолеть ограничения существующих систем и создать интеллектуальных помощников, способных к сложным и адаптивным действиям в графических средах.

Модуль извлечения опыта работы позволяет выявлять ключевые успешные действия для выполнения подзадач или анализировать первые неудачные попытки, что обеспечивает целенаправленную диагностику ошибок.

Исследование представляет собой своего рода микроскоп для изучения поведения GUI-агентов. Как и при детальном рассмотрении объекта под микроскопом, UI-Mem позволяет разглядеть закономерности в огромном потоке данных, возникающих при взаимодействии с графическим интерфейсом. Использование иерархической памяти и стратифицированной выборки помогает выделить наиболее значимые моменты опыта, подобно фокусировке линз. Эффективность этого подхода, особенно в контексте онлайн-обучения с подкреплением, подтверждает важность структурированного анализа данных для достижения обобщения и переноса знаний между задачами. Как заметил Эндрю Ын: «Мы находимся в моменте, когда необходимо уделять больше внимания данным, а не только алгоритмам».

Куда двигаться дальше?

Представленная работа, хотя и демонстрирует улучшение эффективности обучения агентов для автоматизации графических интерфейсов, лишь приоткрывает завесу над истинной сложностью проблемы. Каждое изображение интерфейса скрывает структурные зависимости, которые необходимо выявить для создания действительно универсальных агентов. Простая оптимизация стратегий выборки из опыта — это лишь технический шаг; настоящая задача заключается в понимании того, как эти агенты могут формировать внутреннюю репрезентацию интерфейса, подобную тому, как человек понимает назначение кнопок и полей.

Важно признать, что текущие подходы к иерархической памяти всё ещё опираются на заранее заданные структуры. Будущие исследования должны быть направлены на создание систем, способных к самоорганизации памяти, адаптирующейся к изменяющимся условиям и новым задачам. Интерпретация моделей, лежащих в основе этих систем, важнее красивых результатов. Необходимо разрабатывать методы визуализации и анализа, позволяющие понять, как агент «видит» интерфейс и принимает решения.

Перспективы лежат в области интеграции с более широкими мультимодальными моделями и в исследовании методов обучения с подкреплением, учитывающих не только непосредственную награду, но и долгосрочные последствия действий. В конечном итоге, цель — создание агентов, способных к гибкому и адаптивному взаимодействию с любым графическим интерфейсом, подобно тому, как человек осваивает новые приложения без необходимости переобучения.

Оригинал статьи: https://arxiv.org/pdf/2602.05832.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-02-09 04:32