Диалог с памятью: как научить ИИ понимать ваши предпочтения

Автор: Денис Аветисян

Новое исследование представляет платформу MultiSessionCollab для создания разговорных агентов, способных адаптироваться к пользователю в долгосрочном взаимодействии.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

В ходе многосессионного бенчмарка по совместной работе, агент непрерывно адаптируется к предпочтениям пользователя, уточняя черновики ответов на основе полезности и соответствия ответам, а также корректируя свою память после каждой сессии для улучшения будущих взаимодействий, что оценивается по успеху решения задачи, длительности диалога и усилиям пользователя.

Разработанный фреймворк и бенчмарк позволяют создавать ИИ-агентов, обучающихся на основе многосессионного взаимодействия и механизмов обучения с подкреплением.

В современных диалоговых системах удержание и адаптация к индивидуальным предпочтениям пользователя часто остаются сложной задачей, препятствующей построению долгосрочных отношений. В данной работе, ‘Learning User Preferences Through Interaction for Long-Term Collaboration’, представлен новый бенчмарк MultiSessionCollab и фреймворк для создания агентов, способных обучаться на основе взаимодействия с пользователем в течение нескольких сессий. Показано, что использование механизмов памяти, сохраняющих и уточняющих информацию о предпочтениях, значительно улучшает качество совместной работы, повышая эффективность и снижая когнитивную нагрузку на пользователя. Не откроет ли это путь к созданию действительно «умных» помощников, способных предвосхищать потребности и адаптироваться к стилю работы каждого пользователя?

Вызов долгосрочного взаимодействия

Современные разговорные агенты зачастую испытывают трудности с поддержанием связности и персонализации в ходе многократных взаимодействий, что препятствует формированию подлинно совместной работы. Вместо того, чтобы выстраивать последовательную беседу, учитывающую предыдущие реплики и предпочтения пользователя, системы нередко «забывают» контекст, выдавая общие, нерелевантные ответы. Это приводит к ощущению разочарования и снижает эффективность взаимодействия, поскольку пользователь вынужден постоянно повторять информацию или корректировать запросы. Сложность заключается в том, чтобы обеспечить агентов способностью не просто реагировать на текущий запрос, но и накапливать и использовать знания о пользователе в долгосрочной перспективе, создавая иллюзию запоминания и понимания, свойственную человеческому общению.

Для построения действительно эффективного взаимодействия требуется, чтобы интеллектуальные агенты не просто реагировали на заявленные предпочтения пользователя, но и накапливали знания о них с течением времени, адаптируя свои ответы и поведение. Это предполагает наличие сложных механизмов памяти, способных хранить и анализировать историю взаимодействия, выявлять закономерности и прогнозировать будущие потребности. Без подобных систем агенты вынуждены каждый раз начинать «с нуля», предлагая обобщенные решения, что неизбежно приводит к снижению удовлетворенности пользователя и разрушает ощущение персонализированного подхода. Разработка надежных и масштабируемых систем памяти является, таким образом, ключевой задачей в создании по-настоящему коллаборативных интеллектуальных агентов.

Отсутствие надежных механизмов памяти у современных разговорных агентов приводит к тому, что они неизбежно возвращаются к общим, неперсонализированным ответам. Это создает крайне неприятный опыт для пользователей, рассчитывающих на индивидуальный подход и помощь, адаптированную к их конкретным потребностям и предпочтениям. Пользователь, надеясь на продолжение диалога и учет предыдущего взаимодействия, сталкивается с ощущением, что агент «забывает» важную информацию, что подрывает доверие и мотивацию к дальнейшему взаимодействию. В результате, вместо полноценного сотрудничества возникает имитация диалога, лишенная глубины и практической ценности.

Результаты пользовательского исследования демонстрируют, что использование памяти агентами приводит к устойчивому улучшению показателей в отношении длительности диалога (<span class="katex-eq" data-katex-display="false">\Delta_{i}^{CL}</span>), соответствия предпочтениям (<span class="katex-eq" data-katex-display="false">\Delta_{i}^{PA}</span>), сохранения предпочтений в памяти (<span class="katex-eq" data-katex-display="false">\Delta_{i}^{PM}</span>), уверенности (<span class="katex-eq" data-katex-display="false">\Delta_{i}^{C}</span>) и общей удовлетворенности (<span class="katex-eq" data-katex-display="false">\Delta_{i}^{O}</span>) на протяжении трех сессий. — Результаты пользовательского исследования демонстрируют, что использование памяти агентами приводит к устойчивому улучшению показателей в отношении длительности диалога ( $\Delta_{i}^{CL}$ ), соответствия предпочтениям ( $\Delta_{i}^{PA}$ ), сохранения предпочтений в памяти ( $\Delta_{i}^{PM}$ ), уверенности ( $\Delta_{i}^{C}$ ) и общей удовлетворенности ( $\Delta_{i}^{O}$ ) на протяжении трех сессий.

Создание агентов с устойчивой памятью

Ключевым элементом для долгосрочного взаимодействия является надежный механизм памяти, обеспечивающий эффективное хранение и извлечение пользовательских предпочтений. Этот механизм представляет собой структурированное хранилище данных, в котором фиксируются индивидуальные настройки, стили общения, часто используемые темы и другие релевантные сведения о пользователе. Эффективность механизма памяти определяется скоростью доступа к информации, объемом хранимых данных и способностью к их организации и категоризации. Реализация такого механизма позволяет агенту адаптироваться к индивидуальным потребностям пользователя, обеспечивая более персонализированное и продуктивное взаимодействие в течение длительного времени.

Память агента динамически обновляется посредством “Рефлексии на уровне сессии”, заключающейся в анализе каждого диалога. В процессе анализа, агент извлекает информацию о предпочтениях пользователя, его стиле общения и специфических запросах. Полученные данные используются для уточнения текущего представления агента о пользователе и корректировки стратегии взаимодействия. Этот процесс включает в себя не только запоминание фактов, но и выявление закономерностей в поведении пользователя, что позволяет агенту адаптироваться к изменяющимся потребностям и контексту беседы. Рефлексия на уровне сессии происходит в реальном времени, обеспечивая постоянное совершенствование модели пользователя и повышение эффективности взаимодействия.

Агент использует накопленные знания для персонализации ответов и проактивного направления беседы к взаимовыгодным результатам. Это достигается путем анализа предыдущих взаимодействий и выявления индивидуальных предпочтений пользователя, что позволяет адаптировать формат и содержание ответов. Кроме того, агент способен предвидеть потенциальные потребности пользователя на основе собранной информации и предлагать соответствующие решения или направлять разговор в сторону, наиболее отвечающую его целям, повышая эффективность взаимодействия и удовлетворенность пользователя.

В рамках обучения с подкреплением, модель формирует варианты рефлексий на основе диалога, которые оцениваются экспертной моделью по соответствию предпочтениям пользователя <span class="katex-eq" data-katex-display="false">\varepsilon</span>, а затем используются для обновления политики с помощью алгоритма GRPO. — В рамках обучения с подкреплением, модель формирует варианты рефлексий на основе диалога, которые оцениваются экспертной моделью по соответствию предпочтениям пользователя $\varepsilon$ , а затем используются для обновления политики с помощью алгоритма GRPO.

Представляем бенчмарк MultiSessionCollab

Бенчмарк ‘MultiSessionCollab’ представляет собой стандартизированную среду, предназначенную для оценки способности агентов обучаться и адаптироваться к предпочтениям пользователя в ходе нескольких последовательных сессий диалога. Данная среда позволяет проводить объективное сравнение различных подходов к управлению памятью и персонализации, используя унифицированные метрики и протоколы взаимодействия. Стандартизация включает в себя определение набора задач, реализацию симулятора пользователя, а также спецификацию ключевых показателей эффективности, таких как успешность выполнения задачи, усилия пользователя и продолжительность диалога. Это обеспечивает воспроизводимость результатов и позволяет исследователям сравнивать эффективность различных агентов в контролируемых условиях.

Для обеспечения стандартизированной и воспроизводимой оценки возможностей агентов в многосессионном взаимодействии используется “User Simulator” — программная модель, генерирующая реалистичные диалоги. Этот симулятор позволяет автоматизировать процесс тестирования и измерять ключевые метрики, такие как “Успешность выполнения задачи” (Task Success), определяемая как процент успешно завершенных пользовательских запросов; “Усилие пользователя” (User Effort), измеряемое количеством необходимых уточнений или повторных запросов; и “Длина диалога” (Conversation Length), отражающая общее количество реплик для достижения цели. Использование симулятора обеспечивает объективную оценку производительности агентов и позволяет сравнивать различные подходы к обучению и адаптации к предпочтениям пользователя.

В ходе исследования было установлено, что оснащение диалоговых агентов механизмом памяти позволяет им достигать уровня успешного выполнения задач, сопоставимого с агентами, имеющими прямой доступ к предпочтениям пользователя. Эксперименты показали, что агенты, использующие память для сохранения информации о предыдущих взаимодействиях, демонстрируют аналогичную или близкую к таковой эффективность в достижении поставленных целей, не требуя явного предоставления пользовательских настроек на каждом этапе диалога. Это свидетельствует о том, что память может служить эффективной заменой прямому доступу к предпочтениям, позволяя агентам адаптироваться к индивидуальным потребностям пользователей на основе накопленного опыта взаимодействия.

В ходе тестирования наблюдалась тенденция к снижению пользовательских усилий, измеряемого количеством случаев, когда предпочтения пользователя требовали повторного указания или уточнения. Это свидетельствует о повышении способности агента запоминать и учитывать ранее заявленные предпочтения в ходе диалога. Более низкое количество повторных запросов на уточнение предпочтений указывает на улучшенную приверженность агента к пользовательским установкам и, как следствие, на повышение удобства и эффективности взаимодействия.

В ходе тестирования установлено, что диалоги с использованием агентов, оснащенных памятью, на третьей сессии оказались на 3-4 хода короче по сравнению с агентами, не использующими память. Данное сокращение длительности разговора свидетельствует о повышении эффективности взаимодействия и более быстром достижении поставленных задач. Уменьшение количества ходов указывает на то, что агент с памятью способен более оперативно понимать и учитывать предпочтения пользователя, минимизируя необходимость повторных уточнений или коррекций.

Анализ результатов работы gpt-oss-20b на протяжении 20 сессий показывает, что использование памяти агентами приводит к улучшению показателя успешности задач (<span class="katex-eq" data-katex-display="false">\Delta_{i}^{TS}</span>), снижению усилий пользователя (<span class="katex-eq" data-katex-display="false">\Delta_{i}^{UE}</span>) и изменению длины диалога (<span class="katex-eq" data-katex-display="false">\Delta_{i}^{Len}</span>) по сравнению с агентами без памяти. — Анализ результатов работы gpt-oss-20b на протяжении 20 сессий показывает, что использование памяти агентами приводит к улучшению показателя успешности задач ( $\Delta_{i}^{TS}$ ), снижению усилий пользователя ( $\Delta_{i}^{UE}$ ) и изменению длины диалога ( $\Delta_{i}^{Len}$ ) по сравнению с агентами без памяти.

Реализация и выбор модели

В качестве основы для наших долгосрочных коллаборативных агентов используются большие языковые модели, такие как ‘Llama-3.3-70B-Instruct’ и ‘Qwen-2.5-7B-Instruct’. Модель ‘Llama-3.3-70B-Instruct’ представляет собой языковую модель с 70 миллиардами параметров, обученную для следования инструкциям, что обеспечивает высокую производительность в задачах, требующих понимания и генерации текста. ‘Qwen-2.5-7B-Instruct’ — это модель с 7 миллиардами параметров, также оптимизированная для следования инструкциям и предназначенная для эффективной работы в условиях ограниченных вычислительных ресурсов. Выбор данных моделей обусловлен их способностью к генерации связного и релевантного текста, а также возможностью адаптации к различным задачам и сценариям взаимодействия.

Для автоматической оценки качества «Сеансовых Рефлексий» используется система ‘LLM-Judge’, в основе которой лежит большая языковая модель ‘Llama-3.3-70B-Instruct’. Данный подход позволяет масштабировать процесс оценки производительности агентов, избегая необходимости ручного анализа. ‘LLM-Judge’ анализирует содержание рефлексий, выставляя оценки на основе заданных критериев, что обеспечивает объективную и воспроизводимую метрику эффективности агента в ходе длительных взаимодействий.

Использование мощных больших языковых моделей (LLM), таких как Llama-3.3-70B-Instruct и Qwen-2.5-7B-Instruct, в сочетании с автоматизированными методами оценки, такими как LLM-Judge, позволяет значительно ускорить процесс исследования различных архитектур и параметров агентов. Автоматическая оценка качества рефлексий на уровне сессии позволяет проводить масштабные эксперименты и быстро выявлять оптимальные конфигурации, обеспечивая эффективную оптимизацию поведения агентов без необходимости ручной проверки и анализа больших объемов данных. Это позволяет нам систематически исследовать пространство возможных решений и находить наиболее эффективные стратегии для долгосрочных коллаборативных агентов.

Эксперименты с Llama-3.3-70B-Instruct показали, что использование памяти агентами стабильно улучшает успешность выполнения задач (<span class="katex-eq" data-katex-display="false">\Delta_{i}^{TS}</span>), снижает усилия пользователя (<span class="katex-eq" data-katex-display="false">\Delta_{i}^{UE}</span>) и сокращает длину диалогов (<span class="katex-eq" data-katex-display="false">\Delta_{i}^{Len}</span>) на протяжении 20 сессий. — Эксперименты с Llama-3.3-70B-Instruct показали, что использование памяти агентами стабильно улучшает успешность выполнения задач ( $\Delta_{i}^{TS}$ ), снижает усилия пользователя ( $\Delta_{i}^{UE}$ ) и сокращает длину диалогов ( $\Delta_{i}^{Len}$ ) на протяжении 20 сессий.

Будущее коллаборативного ИИ

Исследования демонстрируют, что долгосрочные коллаборативные агенты обладают потенциалом кардинально изменить взаимодействие человека и компьютера. В отличие от традиционных систем, ориентированных на выполнение единичных задач, эти агенты способны накапливать знания о предпочтениях и особенностях конкретного пользователя в процессе длительного взаимодействия. Это позволяет им адаптироваться к индивидуальным потребностям и предлагать решения, которые не просто эффективны, но и соответствуют личным запросам. Такой подход открывает возможности для создания интеллектуальных помощников, способных не только выполнять команды, но и предвидеть потребности, тем самым повышая продуктивность и улучшая пользовательский опыт. Перспективы развития этой технологии охватывают широкий спектр областей — от персональных ассистентов и образовательных платформ до систем поддержки принятия решений и автоматизации рутинных задач.

Разработка искусственного интеллекта, ориентированного на индивидуальные потребности и предпочтения пользователя, открывает новые горизонты в сфере взаимодействия человека и машины. Вместо универсальных решений, адаптирующихся ко всем подряд, перспективным направлением является создание интеллектуальных помощников, способных обучаться и эволюционировать вместе со своими пользователями. Такой подход предполагает глубокий анализ поведенческих паттернов, личных установок и контекста взаимодействия, что позволяет агентам предвосхищать запросы и предлагать наиболее релевантные решения. Подобная персонализация не только повышает эффективность работы с ИИ, но и способствует формированию доверительных отношений, делая взаимодействие более комфортным и естественным.

Результаты пользовательского исследования продемонстрировали значительное улучшение соответствия ответов агента предпочтениям пользователей. В ходе сессий наблюдался устойчивый рост показателя «приверженности предпочтениям» — с начального значения в 3 балла он увеличился до 5 баллов к третьей сессии. Данная динамика свидетельствует о способности агента адаптироваться к индивидуальным потребностям и выстраивать взаимодействие, максимально соответствующее ожиданиям пользователя. Такое улучшение указывает на перспективность долгосрочного сотрудничества между человеком и искусственным интеллектом, где агент не просто выполняет задачи, а действительно понимает и учитывает личные предпочтения, создавая более эффективный и комфортный опыт взаимодействия.

Предстоящие исследования направлены на расширение функциональных возможностей этих интеллектуальных агентов, с целью их адаптации к более сложным задачам и разнообразным областям применения. Разработчики планируют выйти за рамки текущих ограничений, обучая агентов решению многоступенчатых проблем, требующих не только обработки данных, но и проявления гибкости в принятии решений. Ожидается, что подобное усложнение приведет к созданию более эффективных и вовлекающих совместных взаимодействий, где искусственный интеллект станет не просто помощником, а полноценным партнером в достижении поставленных целей. Особое внимание будет уделено способности агентов к обучению в процессе работы, что позволит им постоянно совершенствовать свои навыки и адаптироваться к изменяющимся потребностям пользователя, формируя действительно персонализированный опыт взаимодействия.

Анализ работы Llama-3.1-8B-Instruct после GRPO показывает, что использование памяти агентами приводит к улучшению показателей успешности задач (<span class="katex-eq" data-katex-display="false">\Delta_{i}^{TS}</span>), снижению усилий пользователя (<span class="katex-eq" data-katex-display="false">\Delta_{i}^{UE}</span>) и изменению длины диалога (<span class="katex-eq" data-katex-display="false">\Delta_{i}^{Len}</span>) по сравнению с агентами без памяти. — Анализ работы Llama-3.1-8B-Instruct после GRPO показывает, что использование памяти агентами приводит к улучшению показателей успешности задач ( $\Delta_{i}^{TS}$ ), снижению усилий пользователя ( $\Delta_{i}^{UE}$ ) и изменению длины диалога ( $\Delta_{i}^{Len}$ ) по сравнению с агентами без памяти.

Исследование, представленное в данной работе, демонстрирует стремление к созданию систем, способных адаптироваться к индивидуальным предпочтениям пользователя в процессе длительного взаимодействия. Этот подход особенно важен в контексте MultiSessionCollab, где акцент делается на построении агентов, запоминающих и учитывающих прошлый опыт. Как однажды заметил Кен Томпсон: «Простота — это высшая степень совершенства». В данном случае, элегантность системы проявляется не только в сложности алгоритмов обучения с подкреплением, но и в способности эффективно извлекать и использовать информацию о предпочтениях пользователя, оптимизируя качество совместной работы. Ведь, как показывает практика, чрезмерная сложность часто скрывает хрупкость архитектуры, а истинная сила — в лаконичности и ясности.

Куда двигаться дальше?

Представленная работа, стремясь к построению агентов, способных к долгосрочному взаимодействию, неизбежно сталкивается с фундаментальными вопросами. Если система держится на костылях сложной памяти и обучения с подкреплением, значит, мы переусложнили её. Модульность, как иллюзия контроля, может дать лишь временное облегчение, если не понимать, как предпочтения пользователя вплетены в контекст его деятельности. Успех в этой области требует не просто регистрации действий, а понимания почему пользователь действует так, а не иначе.

Очевидным направлением представляется отказ от универсальных моделей предпочтений в пользу более гибких, способных к самоорганизации. Предпочтения — это не статичные параметры, а динамичные паттерны, формирующиеся в процессе взаимодействия. Ключевым станет разработка методов, позволяющих агентам не просто адаптироваться к предпочтениям, а предвидеть их, действуя проактивно. Иначе, мы лишь строим сложные механизмы для регистрации уже совершенных действий.

В конечном счете, задача состоит не в создании агентов, имитирующих человеческое понимание, а в разработке принципиально новых форм взаимодействия, где предпочтения пользователя становятся неотъемлемой частью самой системы. Структура определяет поведение, и только понимание этой связи позволит создать действительно интеллектуальных помощников.

Оригинал статьи: https://arxiv.org/pdf/2601.02702.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-11 03:38