Искусственный пользователь: где симуляция расходится с реальностью

Автор: Денис Аветисян


Новое исследование выявляет существенные расхождения между поведением смоделированных пользователей и реальных людей в интерактивных задачах, что ставит под сомнение надежность автоматизированных систем оценки.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
В исследовании представлена таксономия разрывов между симуляцией и реальностью в моделировании поведения пользователей, выделяющая ключевые аспекты, в которых наблюдаются значительные расхождения между человеческим поведением и ответами всех языковых моделей, точные операциональные определения поведенческих метрик представлены в Приложении §A.4.
В исследовании представлена таксономия разрывов между симуляцией и реальностью в моделировании поведения пользователей, выделяющая ключевые аспекты, в которых наблюдаются значительные расхождения между человеческим поведением и ответами всех языковых моделей, точные операциональные определения поведенческих метрик представлены в Приложении §A.4.

Исследователи демонстрируют, что современные симуляторы пользователей создают упрощенную среду для агентов и недостаточно точно отражают человеческие суждения об успехе выполнения задач.

Несмотря на растущую популярность LLM-симуляторов пользователей в интерактивной оценке агентов, часто упускается из виду вопрос об их соответствии реальному человеческому поведению. В работе ‘Mind the Sim2Real Gap in User Simulation for Agentic Tasks’ впервые формализована проблема расхождения между симуляцией и реальностью (Sim2Real gap) и проведено масштабное исследование с участием \mathcal{N}=451 реальных пользователей и 31 LLM-симулятора, с использованием нового показателя User-Sim Index (USI). Полученные результаты показывают, что LLM-симуляторы склонны к излишней кооперативности и не отражают реалистичной фрустрации или неоднозначности, создавая тем самым «облегченный режим» для агентов и завышая показатели их успешности. Не приведет ли это к разработке агентов, неспособных эффективно взаимодействовать с реальными пользователями в сложных, непредсказуемых ситуациях?


Иллюзия Интеллекта: Оценка Интерактивных Агентов

В настоящее время оценка интерактивных искусственных интеллектов, широко используемых, например, в службах клиентской поддержки, часто основывается на упрощенных системах, таких как бинарные вознаграждения. Эти системы оперируют лишь двумя исходами — «успех» или «неудача» — и, таким образом, не способны отразить сложность и многогранность успешного взаимодействия. Подобный подход предполагает, что любое отклонение от заранее определенного сценария считается ошибкой, игнорируя потенциально полезные или творческие ответы, которые могут быть восприняты человеком как положительные. В результате, оценка, основанная исключительно на бинарных вознаграждениях, может существенно отличаться от человеческой оценки качества диалога, что ограничивает возможности развития действительно интеллектуальных и полезных разговорных агентов.

Существующие метрики оценки интерактивных агентов, таких как чат-боты, часто оказываются неспособны уловить все тонкости успешного взаимодействия. Исследования показывают значительный разрыв между автоматизированной оценкой и человеческим восприятием: в 70.6% случаев, когда система не выдает положительной оценки (reward=0), люди оценивают взаимодействие как успешное. Этот “разрыв в оценке” указывает на то, что текущие алгоритмы фокусируются на узком наборе критериев, упуская из виду важные аспекты, такие как эмпатия, понимание контекста и способность адаптироваться к потребностям пользователя. Данный феномен препятствует разработке действительно интеллектуальных и полезных диалоговых систем, способных обеспечить полноценное взаимодействие с человеком.

Разрыв между автоматизированной оценкой и человеческим восприятием успешности диалога существенно замедляет развитие по-настоящему интеллектуальных и полезных разговорных агентов. Существующие метрики, основанные на простых бинарных вознаграждениях, не способны отразить всю сложность и нюансы успешного взаимодействия, что приводит к ситуации, когда система может считать диалог неудачным, в то время как человек оценивает его как вполне приемлемый и даже полезный. Этот несоответствие препятствует эффективному обучению моделей, поскольку алгоритмы оптимизируются не под реальные критерии успеха, а под упрощенные и не всегда релевантные показатели. В результате, прогресс в создании агентов, способных к эмпатии, пониманию контекста и предоставлению действительно полезной помощи, оказывается затруднен, и требуется разработка более сложных и адекватных методов оценки, отражающих субъективную природу человеческого общения.

Анализ оценок успешности выполнения задач людьми и двоичной награды <span class="katex-eq" data-katex-display="false">	au</span> показал, что награда не коррелирует с субъективной оценкой успешности или качеством взаимодействия, при этом 70.6% случаев с нулевой наградой были признаны успешными людьми, а 81% случаев, ограниченных политикой, получили награду 1.
Анализ оценок успешности выполнения задач людьми и двоичной награды au показал, что награда не коррелирует с субъективной оценкой успешности или качеством взаимодействия, при этом 70.6% случаев с нулевой наградой были признаны успешными людьми, а 81% случаев, ограниченных политикой, получили награду 1.

Представляем τau-bench: Новый Стандарт Оценки Агентов

Представляем τau-bench — интерактивный оценочный бенчмарк, разработанный для оценки AI-агентов в реалистичных сценариях клиентской поддержки. Бенчмарк предназначен для имитации взаимодействия с клиентами, включающего различные запросы и проблемы, с которыми агенты сталкиваются в реальной рабочей среде. τau-bench позволяет оценивать способность агентов эффективно решать задачи, понимать намерения пользователей и обеспечивать качественное обслуживание в динамичных условиях, приближенных к реальным. Основной целью разработки является создание стандартизированного инструмента для объективной оценки и сравнения различных AI-агентов в области клиентского сервиса.

В основе τ-au-bench лежит использование симуляторов пользователей, построенных на больших языковых моделях (LLM). Данный подход позволяет создавать динамичные и непредсказуемые диалоги, в отличие от статических или предопределенных сценариев. LLM-симуляторы способны генерировать разнообразные запросы и реакции, адаптируясь к ответам агента и внося элемент случайности в взаимодействие. Это обеспечивает более реалистичную оценку возможностей агента в условиях, приближенных к реальным клиентским обращениям, и позволяет выявить его слабые места в обработке нетипичных или сложных запросов.

В основе оценки производительности агентов в τ-bench лежит комбинированный подход, включающий как автоматизированные метрики, так и экспертную оценку человека. Автоматизированные метрики позволяют проводить количественный анализ ключевых показателей, таких как скорость ответа, количество решенных задач и точность информации. В то же время, человеческая оценка позволяет оценить качество взаимодействия с точки зрения естественности диалога, понимания потребностей клиента и общей удовлетворенности обслуживанием, аспекты, которые сложно оценить автоматизированными средствами. Сочетание этих двух подходов обеспечивает всестороннюю и объективную оценку возможностей агентов в реалистичных сценариях обслуживания клиентов.

Результаты показывают, что универсальные языковые модели в роли симуляторов пользователей склонны переоценивать успешность агента, в то время как специализированные симуляторы, напротив, дают более реалистичные, зачастую заниженные оценки по сравнению с показателями человека.
Результаты показывают, что универсальные языковые модели в роли симуляторов пользователей склонны переоценивать успешность агента, в то время как специализированные симуляторы, напротив, дают более реалистичные, зачастую заниженные оценки по сравнению с показателями человека.

Проблема Sim2Real: Согласование Симуляций с Реальностью

Ключевой проблемой при использовании LLM-симуляторов пользователей является потенциальный разрыв между симуляцией и реальным поведением человека, известный как “Sim2Real Gap”. Этот разрыв обусловлен тем, что LLM, несмотря на свою способность генерировать правдоподобный текст, не всегда точно воспроизводит сложность и непредсказуемость человеческого взаимодействия. Он проявляется в отличиях в способах формулирования запросов, предпочтениях в предоставлении информации и реакциях на ошибки, что может привести к невертичной оценке производительности агента и, как следствие, к ухудшению пользовательского опыта. Необходимо учитывать, что симуляторы, даже самые продвинутые, являются упрощенными моделями, и их поведение не может полностью соответствовать реальному поведению человека.

Расхождение между поведением пользователя в симуляции и реальным поведением проявляется в нескольких ключевых аспектах. Отличия в стиле общения включают вариации в длине сообщений, использовании сленга и эмоциональной окраске. Различия в паттернах предоставления информации касаются последовательности запросов, уровня детализации и предпочтения определенных типов данных. Наконец, реакция на ошибки различается в том, как пользователь воспринимает и обрабатывает неверные ответы или сбои системы — в симуляции пользователи часто менее склонны к повторным попыткам или поиску альтернативных решений, чем в реальной жизни.

Неучет расхождения между поведением пользователя в симуляции и в реальных условиях приводит к завышенной оценке эффективности агента и, как следствие, к ухудшению пользовательского опыта. При оценке агентов исключительно на основе симуляций, разработчики могут столкнуться с ситуацией, когда агент демонстрирует высокие результаты в контролируемой среде, но оказывается неэффективным при взаимодействии с реальными пользователями, обладающими более сложным и непредсказуемым поведением. Это связано с тем, что симуляции часто упрощают моделирование человеческого поведения, не учитывая все нюансы коммуникации, паттерны получения информации и реакции на ошибки, характерные для реальных пользователей. В результате, оптимизация агента для симуляции может не привести к ожидаемым улучшениям в реальной среде, а наоборот, вызвать негативную реакцию пользователей и снижение их удовлетворенности.

Для количественной оценки расхождения между поведением пользователей в симуляции и реальными пользователями используется показатель User-Sim Index (USI). Полученные данные демонстрируют, что среднее значение USI для симуляторов составляет 76.0, в то время как для реальных пользователей этот показатель равен 92.9. Данное расхождение в 16.9 пункта указывает на значительную разницу в реалистичности поведения, что необходимо учитывать при оценке производительности агентов и разработке пользовательского опыта.

Анализ USI и Elo-рейтинга показывает, что за исключением моделей серии GPT, общая производительность языковых моделей не гарантирует точного моделирования поведения пользователей, что подтверждается доверительными интервалами и стандартными отклонениями, полученными в ходе аннотаций.
Анализ USI и Elo-рейтинга показывает, что за исключением моделей серии GPT, общая производительность языковых моделей не гарантирует точного моделирования поведения пользователей, что подтверждается доверительными интервалами и стандартными отклонениями, полученными в ходе аннотаций.

Тестирование Надежности: Агенты, Проверенные Продвинутыми Моделями

Для подтверждения надежности и эффективности платформы \tau_{au-bench}, была проведена серия тестов с использованием передовых больших языковых моделей, включая `GPT-5` и `Gemini-3.1-Pro`. Исследователи оценили способность этих агентов к решению сложных задач в реалистичных симуляциях, стремясь выявить сильные и слабые стороны различных архитектур. Результаты позволили не только подтвердить работоспособность платформы в условиях повышенной сложности, но и продемонстрировать её потенциал для дальнейшей оптимизации и разработки более совершенных искусственных интеллектов, способных эффективно взаимодействовать с окружающим миром.

Тщательное тестирование, проведенное с использованием передовых языковых моделей, таких как GPT-5 и Gemini-3.1-Pro, позволило выявить значимые особенности различных архитектур агентов. Анализ продемонстрировал, что некоторые конструкции превосходят другие в определенных сценариях, в то время как другие демонстрируют более устойчивую производительность в широком спектре условий. Выявленные сильные и слабые стороны каждой архитектуры позволяют разработчикам более осознанно подходить к проектированию агентов, оптимизируя их для конкретных задач и повышая общую надежность систем искусственного интеллекта. Это понимание особенно важно для создания агентов, способных эффективно функционировать в сложных и непредсказуемых средах.

Исследования показали, что разработанный комплекс тестов \tau_{au-bench} представляет собой ценный инструмент для выявления и устранения критических пробелов в производительности интеллектуальных агентов. Применение \tau_{au-bench} позволяет детально проанализировать слабые места в архитектуре агентов, что, в свою очередь, способствует целенаправленной оптимизации и повышению их надежности в различных сценариях. Выявление этих пробелов имеет ключевое значение для создания более совершенных и адаптивных систем искусственного интеллекта, способных эффективно функционировать в сложных и непредсказуемых условиях, а также для улучшения общей производительности и безопасности подобных систем.

Исследование выявило так называемый “Разрыв Оценки” — несоответствие между реалистичностью симуляций и человеческим восприятием. Для частичного преодоления этого разрыва была применена метрика USI (User Simulation Index) для оценки реалистичности моделируемых взаимодействий. Анализ показал, что средний показатель USI для симуляций составил 76.0, в то время как для реального человеческого поведения этот показатель достигает 92.9. Данное расхождение подчеркивает необходимость дальнейшей работы над улучшением реалистичности симуляций, чтобы добиться более точного соответствия с естественным человеческим поведением и обеспечить надежность оценки агентов в сложных сценариях.

Сравнительный анализ поведения моделей GPT-4o, Qwen3-235B, CoSER и UserLM-8b на задачах <span class="katex-eq" data-katex-display="false">	au</span>-bench показывает, что, несмотря на общие тенденции, некоторые метрики (выделенные красной рамкой) значительно отличаются от поведения человека в аспектах стилей общения, уточнения информации, паттернов информационного обмена и реакции на ошибки, подробные результаты представлены в Таблице 1.
Сравнительный анализ поведения моделей GPT-4o, Qwen3-235B, CoSER и UserLM-8b на задачах au-bench показывает, что, несмотря на общие тенденции, некоторые метрики (выделенные красной рамкой) значительно отличаются от поведения человека в аспектах стилей общения, уточнения информации, паттернов информационного обмена и реакции на ошибки, подробные результаты представлены в Таблице 1.

Исследование показывает, что симуляторы пользователей, основанные на больших языковых моделях, создают иллюзию успеха для агентов, не отражая реальной сложности взаимодействия с человеком. По сути, это как написать простой bash-скрипт и удивляться, что он работает, пока не столкнется с реальными данными. Как метко заметил Линус Торвальдс: «Плохой код — это просто эмоциональный долг с коммитами». Здесь та же история: симуляторы выглядят впечатляюще, но не отражают истинного «технического долга» в виде поведенческого расхождения с реальными пользователями. Индекс USI, предложенный авторами, пытается измерить эту разницу, но, судя по результатам, агенты всё ещё живут в «легком режиме», не сталкиваясь с тем хаосом, который всегда возникает при взаимодействии с человеком.

Что дальше?

Работа продемонстрировала, что симуляторы пользователей, построенные на больших языковых моделях, создают иллюзию успеха для агентов. Неудивительно. Каждая «революционная» метрика сегодня — это лишь отложенный техдолг. В реальности, когда агент столкнётся с непредсказуемостью живого человека, эта разница в оценках проявится во всей красе. Индекс USI, предложенный авторами, может стать полезным инструментом для выявления этих расхождений, но он не панацея. Он лишь измеряет то, что мы уже подозревали: симуляция — это всегда упрощение, а упрощение — всегда ложь.

Будущие исследования, вероятно, будут направлены на повышение реалистичности симуляторов, но стоит помнить: сложность не всегда равнозначна правде. Гораздо важнее сосредоточиться на понимании причины расхождений. Почему симулятор оценивает задачу как выполненную, а человек — нет? Что на самом деле важно для пользователя, а что — лишь артефакт модели? Иногда лучше монолит, чем сто микросервисов, каждый из которых врёт, и иногда — простой, честный симулятор, который не претендует на абсолютную точность.

В конечном итоге, задача не в том, чтобы создать идеальный симулятор пользователя, а в том, чтобы научиться жить с его несовершенством. Иначе, через несколько лет, все эти «прорывные» технологии потребуют колоссальных ресурсов для поддержки, а проблема останется нерешённой. Кажется, мы снова изобретаем велосипед, только теперь — с искусственным интеллектом.


Оригинал статьи: https://arxiv.org/pdf/2603.11245.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-15 11:35