Искусственный пользователь: Моделирование поиска в новой реальности

Автор: Денис Аветисян

В статье представлена UXSim — платформа, объединяющая классические и нейросетевые методы для создания более реалистичных и адаптивных моделей поведения пользователей при поиске информации.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

В архитектуре UXSim, управляющая политика Oris координирует моделирование, обращаясь либо к симуляторам, либо к возможностям когнитивного агента, а слой абстракции интерфейса обеспечивает применение полученных действий к пользовательскому интерфейсу.

Разработка гибридного фреймворка для моделирования пользовательского поиска, сочетающего когнитивные архитектуры и большие языковые модели.

Моделирование сложного пользовательского опыта в интерактивных поисковых системах представляет собой серьезную методологическую задачу, часто требующую компромисса между реалистичностью и проверяемостью. В данной работе представлена новая платформа ‘UXSim: Towards a Hybrid User Search Simulation’, объединяющая преимущества традиционных симуляторов и больших языковых моделей (LLM) для создания более адаптивных и правдоподобных моделей поведения пользователей. Предложенный подход позволяет не только повысить точность симуляций, но и обеспечить возможность интерпретации когнитивных процессов, лежащих в основе взаимодействия человека с системой. Возможно ли с помощью UXSim создать виртуальную среду, позволяющую предсказывать и оптимизировать пользовательский опыт в поисковых системах нового поколения?

Преодолевая разрыв между симуляцией и реальностью в моделировании пользователей

Традиционные методы моделирования поведения пользователей в информационных системах часто опираются на системы, основанные на жестких правилах. Такой подход обеспечивает высокую скорость работы и относительно простую реализацию, однако страдает от недостатка реалистичности. Эти системы, в отличие от сложного и непредсказуемого поведения человека, не способны учитывать индивидуальные предпочтения, контекст взаимодействия или эмоциональное состояние пользователя. В результате, моделируемые взаимодействия выглядят упрощенно и не отражают всей палитры реального поведения, что снижает достоверность оценки эффективности поисковых систем и пользовательских интерфейсов. Отсутствие нюансов в имитации поведения может приводить к ошибочным выводам о юзабилити и, как следствие, к созданию продуктов, не отвечающих потребностям реальных пользователей.

Ограничения, присущие традиционным системам моделирования пользователей, существенно затрудняют объективную оценку поисковых систем и пользовательских интерфейсов. Неспособность адекватно воспроизвести сложность и непредсказуемость реального поведения человека приводит к тому, что дизайнеры и разработчики зачастую принимают решения, основанные на неполных или искаженных данных. В результате, создаваемые интерфейсы могут оказаться неудобными, неэффективными и не соответствовать потребностям пользователей, что негативно сказывается на общей удовлетворенности и продуктивности. Такая несоответствие между смоделированным и реальным поведением пользователей, в конечном итоге, приводит к созданию продуктов с упущенными возможностями и сниженной конкурентоспособностью.

UXSim: Гибридный подход к реалистичной симуляции

UXSim объединяет традиционные компоненты моделирования с большими языковыми моделями (LLM) для создания более реалистичных и адаптивных моделей поведения пользователей. В отличие от стандартных симуляторов, полагающихся на предопределенные сценарии и правила, UXSim использует LLM для генерации запросов и принятия решений, имитирующих более широкий спектр пользовательских действий. Это позволяет моделировать поведение, которое динамически реагирует на изменения в интерфейсе и контексте, повышая точность и достоверность симуляции. Традиционные компоненты, такие как генерация запросов, оценка релевантности и определение момента остановки, обеспечивают структурную основу, а LLM добавляют слой адаптивности и непредсказуемости, приближая поведение симулируемого пользователя к реальному.

Интерфейсный Абстракционный Слой (IAL) в UXSim обеспечивает стабильное представление пользовательского интерфейса, что критически важно для поддержания согласованности взаимодействий в процессе моделирования. IAL выступает в роли посредника между LLM и фактическим интерфейсом приложения, нормализуя представления элементов управления и их состояния. Это позволяет LLM оперировать абстрактными представлениями интерфейса, не завися от конкретных реализаций или изменений в UI. В результате, LLM может генерировать последовательности действий, которые будут корректно выполнены независимо от визуальных или технических деталей пользовательского интерфейса, обеспечивая воспроизводимость и надежность симуляций.

В традиционном фреймворке симуляции UXSim ключевые компоненты — Генерация Запросов, Оценка Релевантности и Решение об Остановке — определяют ход взаимодействия. Генерация Запросов отвечает за создание поисковых запросов, имитирующих действия пользователя. Оценка Релевантности анализирует результаты, полученные в ответ на запрос, и определяет, насколько они соответствуют намерениям пользователя. Компонент Решения об Остановке определяет, когда пользователь завершает выполнение задачи, основываясь на полученных результатах и взаимодействии с системой. Взаимодействие этих компонентов обеспечивает последовательное и реалистичное моделирование поведения пользователя в процессе симуляции.

Oris: Оркестровка действий пользователя с помощью гибких политик

Политика оркестровки Oris функционирует как центральный контроллер в UXSim, определяя, какой компонент генерирует следующее действие пользователя, основываясь на текущем состоянии симуляции. Этот процесс включает анализ текущего состояния, оценку доступных компонентов и выбор наиболее подходящего для генерации следующего шага взаимодействия. Таким образом, Oris обеспечивает координированное и контекстуально релевантное поведение симуляции, имитируя последовательность действий пользователя в соответствии с заданными условиями и целями.

В UXSim используется несколько реализаций модуля Orchestration Policy, известных как Oris. Базовая версия, Oris-S, функционирует на основе заданных правил. Альтернативно, Oris-ML использует методы машинного обучения для определения следующих действий пользователя. Наиболее продвинутая реализация, Oris-A, опирается на когнитивную архитектуру и использует большие языковые модели (LLM) для принятия решений, что позволяет ей учитывать более широкий спектр факторов и контекста при моделировании поведения пользователя.

Политика Oris-A использует возможности рассуждения больших языковых моделей (LLM) для принятия более сложных и нюансированных решений в процессе оркестровки действий пользователя. В ходе тестирования, Oris-A продемонстрировала 78%-ный уровень успешного выполнения задач, что значительно превосходит показатели альтернативных политик, Oris-S и Oris-ML. Данный результат указывает на повышенную эффективность LLM в управлении последовательностью действий пользователя в симуляционной среде UXSim, позволяя более точно моделировать поведение пользователя и достигать поставленных целей.

Валидация UXSim: Метрики и наборы данных для реалистичной оценки

Для обучения и оценки эффективности разработанных политик в UXSim используются специализированные наборы данных, такие как KDD ’19 Dataset и USimAgent Dataset. Эти наборы содержат информацию о реальном поведении пользователей в процессе взаимодействия с веб-приложениями, позволяя моделировать правдоподобные сценарии поиска и навигации. Использование данных KDD ’19, собранных из логов поисковых запросов, и USimAgent Dataset, включающего данные о взаимодействии пользователя с виртуальным агентом, обеспечивает разнообразие и реалистичность обучающих примеров. Это, в свою очередь, способствует созданию более точных и эффективных моделей, способных имитировать поведение пользователей в сложных сценариях взаимодействия.

Для оценки качества генерируемых запросов и релевантности ранжирования результатов поиска в UXSim используются такие метрики, как BERTScore и nDCG@10. В частности, модель Oris-A продемонстрировала впечатляющий результат в 0.812 по метрике BERTScore, превзойдя производительность автономной модели gpt-4o. Метрика nDCG@10, оценивающая качество первых десяти результатов поиска, также является ключевым индикатором эффективности системы. Использование данных метрик позволяет объективно сравнивать различные политики моделирования поведения пользователя и подтверждает способность UXSim создавать реалистичные и эффективные поисковые сценарии.

Для обеспечения достоверности симуляций пользовательского поведения в UXSim используется надежная автоматизация браузера посредством библиотеки Playwright. Этот инструмент позволяет эмулировать действия пользователя — от навигации по страницам и ввода текста до взаимодействия с элементами интерфейса — в реалистичной браузерной среде. В отличие от простых API, Playwright предоставляет полный контроль над браузером, что позволяет точно воспроизводить сложные сценарии взаимодействия, включая прокрутку, клики, ожидание загрузки контента и даже обработку JavaScript. Это критически важно для оценки эффективности различных политик, поскольку позволяет проверить, как они функционируют в условиях, максимально приближенных к реальным, и выявить потенциальные проблемы, которые могут возникнуть при взаимодействии с настоящими пользователями. Благодаря Playwright, UXSim обеспечивает высокую степень точности и надежности при моделировании пользовательского опыта.

Результаты оценки, проведенной с участием людей, демонстрируют существенное превосходство политики Oris-A над Oris-S в плане реалистичности, связности и имитации человеческого поведения. Оценщики выставили Oris-A средний балл 4.4 по критерию правдоподобия, в то время как Oris-S получил лишь 2.1. Аналогичная картина наблюдается и в оценке связности диалогов: 4.6 балла для Oris-A против 2.5 для Oris-S. Наиболее заметная разница зафиксирована в оценке человекоподобия — 4.1 балла для Oris-A и всего 1.9 для Oris-S. Эти данные свидетельствуют о том, что Oris-A значительно лучше воспроизводит естественные паттерны взаимодействия, создавая более убедительные и реалистичные диалоги, что критически важно для создания эффективных и приятных в использовании виртуальных помощников.

Анализ журналов пользовательских сессий продемонстрировал выраженное предпочтение политики Oris-A. В 92% случаев пользователей, участвовавших в исследовании, именно эта политика оказалась более привлекательной по сравнению с альтернативными подходами. Кроме того, Oris-A достигла показателя F1-Score в 0.521 при моделировании поведения пользователей при кликах, что свидетельствует о высокой степени соответствия между действиями, имитируемыми системой, и реальным поведением людей в процессе поиска информации. Данные результаты подтверждают эффективность Oris-A в создании реалистичных и правдоподобных сценариев взаимодействия пользователя с поисковой системой.

Представленный подход к моделированию поведения пользователей, UXSim, стремится к созданию адаптивных и реалистичных моделей, объединяя традиционные методы с возможностями больших языковых моделей. Эта работа подчеркивает важность понимания когнитивных процессов, лежащих в основе поиска информации, и необходимости создания интерфейсов, способных эффективно взаимодействовать с этими процессами. Как однажды заметила Барбара Лисков: «Проектирование должно быть таким, чтобы изменения в деталях не требовали изменений в общей структуре». Это высказывание находит отклик в философии UXSim, где гибкость и модульность системы позволяют легко адаптироваться к новым данным и требованиям, сохраняя при этом целостность и эффективность моделирования пользовательского поведения. Подобный подход позволяет создать системы, которые не просто имитируют поведение, но и способны к эволюции и самосовершенствованию.

Что впереди?

Представленный подход, объединяющий традиционное моделирование поведения пользователей с возможностями больших языковых моделей, несомненно, представляет собой шаг вперед. Однако, подобно любому упрощению, и эта гибридная архитектура не лишена внутренних компромиссов. Создание действительно адаптивных моделей, способных достоверно воспроизводить сложность когнитивных процессов, остаётся сложной задачей. Каждый параметр, каждая абстракция интерфейса — это технический долг, отсроченная необходимость в более глубоком понимании механизмов поиска информации.

Будущие исследования, вероятно, будут сосредоточены на более тонкой оркестровке взаимодействия между различными компонентами симуляции. Недостаточно просто генерировать запросы; необходимо моделировать эволюцию информационных потребностей, контекст поиска и влияние полученных результатов на дальнейшие действия. Особое внимание следует уделить оценке достоверности симуляций — как убедиться, что созданные модели действительно отражают реальное поведение, а не просто имитируют его?

В конечном счете, ценность UXSim, как и любой подобной системы, будет определяться не столько ее технологической сложностью, сколько способностью выявлять и предсказывать изменения в поведении пользователей. Все системы стареют — вопрос лишь в том, делают ли они это достойно, сохраняя способность адаптироваться к меняющейся среде. Время — не метрика, а среда, в которой существуют системы.

Оригинал статьи: https://arxiv.org/pdf/2602.24241.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-02 13:58