Искусственный разум на пути к удобству: оценка интерфейсов без участия человека

Автор: Денис Аветисян


Новое исследование показывает, как современные языковые модели могут автоматизировать процесс оценки удобства использования, приближая нас к созданию интуитивно понятных интерфейсов.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
В исследовании сравнивались результаты работы человека, GPT и Gemini при выполнении задач, оцениваемых по скорости завершения, количеству шагов и результатам тестов JS, что позволило выявить различия в эффективности различных подходов к решению поставленной задачи.
В исследовании сравнивались результаты работы человека, GPT и Gemini при выполнении задач, оцениваемых по скорости завершения, количеству шагов и результатам тестов JS, что позволило выявить различия в эффективности различных подходов к решению поставленной задачи.

Исследование посвящено применению больших языковых моделей для автоматизированного когнитивного прохождения и выявлению потенциальных проблем юзабилити.

Проведение традиционных исследований юзабилити, таких как когнитивные обходы, часто сопряжено со значительными затратами времени и ресурсов. В работе ‘Synthetic Cognitive Walkthrough: Aligning Large Language Model Performance with Human Cognitive Walkthrough’ исследуется возможность автоматизации этого процесса с помощью больших языковых моделей (LLM), обладающих способностью к визуальному анализу и навигации по интерфейсам. Полученные результаты показывают, что LLM демонстрируют более высокую эффективность в решении задач, чем люди, но отличаются в подходах к навигации и выявлению потенциальных проблем юзабилити, однако при дополнительной настройке способны приблизить свою производительность к человеческой. Можно ли масштабировать анализ юзабилити с помощью LLM, сохранив при этом глубину и точность традиционных методов тестирования?


Выявление узких мест: Ограничения традиционных экспертных оценок

Традиционные когнитивные обходы, несмотря на свою ценность в выявлении проблем юзабилити, требуют значительных временных и человеческих ресурсов. Процесс, основанный на экспертной оценке последовательности действий пользователя, зачастую подвержен субъективным искажениям, зависящим от опыта и предубеждений оценивающего. Именно поэтому результаты подобных обходов могут варьироваться в зависимости от того, кто их проводит, что снижает объективность и надежность выявляемых проблем. В связи с этим, для обеспечения более точной и последовательной оценки юзабилити интерфейсов, необходимо искать альтернативные, менее зависимые от человеческого фактора, методы анализа.

Ручные оценки юзабилити, несмотря на свою ценность, становятся непрактичными при работе со сложными интерфейсами. Исследования показывают, что даже опытные эксперты-оценщики успешно завершают лишь 88.2% поставленных задач при проведении традиционных когнитивных проходок. Эта ограниченная эффективность указывает на то, что полагаться исключительно на человеческую оценку при анализе больших и многофункциональных систем может приводить к упущению важных проблем с юзабилити. Необходимость в более масштабируемых и объективных методах оценки становится очевидной, поскольку ручные проходки попросту не способны обеспечить достаточный охват и выявить все потенциальные точки отказа в сложных цифровых продуктах.

Выявление потенциальных точек отказа в интерфейсах требует систематического исследования, однако возможности человека в этом процессе ограничены. Традиционные методы оценки, полагающиеся на экспертов, часто не охватывают все возможные сценарии использования, что приводит к упущению критических проблем. Человеческий фактор проявляется не только в субъективности оценок, но и в физических ограничениях, препятствующих всестороннему анализу сложных систем. Неполный охват задач приводит к тому, что важные ошибки остаются незамеченными, а пользователи сталкиваются с трудностями при взаимодействии с интерфейсом. Таким образом, для обеспечения надежности и удобства использования необходимо дополнять ручные методы автоматизированными инструментами, способными к более полному и объективному исследованию.

Автоматизированная оценка с помощью LLM: Новый подход

Большие языковые модели (LLM) демонстрируют значительный потенциал в автоматизации оценки юзабилити, обеспечивая масштабируемость и консистентность процесса. В частности, модели GPT-4 и Gemini-2.5-pro показали впечатляющие результаты при выполнении заданий по оценке, достигнув 100% и 97.2% успешного завершения задач соответственно. Это указывает на возможность использования LLM для систематического анализа пользовательского опыта и выявления проблем, которые могут быть упущены при традиционных методах оценки, особенно в условиях ограниченных ресурсов или необходимости проведения масштабных тестирований.

Для имитации взаимодействия пользователя и выявления потенциальных проблем в процессе оценки юзабилити могут быть использованы методы промптинга с контекстом (With-Context Prompting) и без контекста (Without-Context Prompting). Метод с контекстом предполагает предоставление LLM информации о предыдущих действиях пользователя и текущем состоянии интерфейса, что позволяет модели более точно воспроизводить пользовательский сценарий. В свою очередь, метод без контекста предполагает, что модель действует автономно, основываясь только на текущей задаче и доступных элементах интерфейса. Оба подхода позволяют систематически исследовать различные состояния интерфейса и выявлять точки отказа, которые могут быть упущены при традиционных методах оценки юзабилити, проводимых человеком.

Автоматизированные обходы интерфейса, реализованные на основе больших языковых моделей (LLM), предназначены для систематического исследования различных состояний пользовательского интерфейса с целью выявления точек отказа, которые могут быть не замечены при традиционных методах оценки юзабилити, проводимых человеком. Этот подход позволяет LLM последовательно взаимодействовать с интерфейсом, переходя между различными состояниями и отслеживая возможные ошибки или нелогичности в работе. В отличие от ручных обходов, LLM способны обрабатывать значительно больший объем состояний и сценариев использования, что повышает вероятность обнаружения скрытых проблем и улучшает общее качество продукта.

Измерение соответствия навигации: Подтверждение выводов LLM

Соответствие навигации по пути (Path Navigation Alignment) представляет собой метрику, позволяющую оценить, насколько последовательность действий, выполняемых языковой моделью (LLM) при взаимодействии с интерфейсом, соответствует оптимальному или ожидаемому пути решения задачи. Данная метрика измеряет степень сходства между фактической траекторией LLM и эталонной траекторией, определяемой экспертами или данными о пользовательском поведении. Высокое значение соответствия указывает на то, что LLM эффективно воспроизводит логику решения задачи, аналогичную человеческой, что является важным фактором для валидации результатов оценки, полученных с помощью LLM. Оценка производится количественно, позволяя сравнивать различные модели и отслеживать улучшения в их способности к взаимодействию с интерфейсами.

Для количественной оценки соответствия путей взаимодействия, предложенных LLM, и оптимальных путей используется метрика расхождения Дженсена-Шеннона ($JSD$). Результаты показали, что модель GPT-4 достигла значения $JSD$ равного 0.05, а Gemini-2.5-pro — 0.10. Важно отметить, что эти значения оказались ниже, чем расхождения, демонстрируемые оценщиками-людьми при выполнении аналогичной задачи, что указывает на высокую степень согласованности LLM с ожидаемыми путями взаимодействия.

Высокая степень соответствия траектории взаимодействия, определяемая с помощью метрики Path Navigation Alignment, подтверждает валидность оценки, проводимой языковой моделью. Это означает, что при выявлении потенциальных проблем юзабилити, LLM демонстрирует согласованность с оптимальным или ожидаемым путем пользователя. В ходе исследований было установлено, что модели, демонстрирующие низкое расхождение $Jensen-Shannon Divergence$ (например, GPT-4 с результатом 0.05), способны эффективно идентифицировать проблемные места в интерфейсе, что позволяет использовать их для автоматизированной оценки пользовательского опыта.

За рамками человеческих предубеждений: Рассуждения LLM и исследование интерфейсов

Исследования показали, что большие языковые модели, такие как GPT-4 и Gemini-2.5-pro, демонстрируют склонность к рациональному поведению при решении задач. В отличие от людей, которые часто прибегают к широкому поиску различных вариантов, модели стремятся к наиболее эффективному решению, завершая задачи в среднем всего за 7.56 и 7.50 шагов соответственно. Этот подход, ориентированный на минимизацию усилий и быстрое достижение цели, указывает на то, что модели отдают предпочтение оптимальным путям решения, избегая излишнего исследования альтернатив. Данная особенность поведения может быть полезна в контексте автоматизации процессов и оптимизации рабочих потоков, однако требует учета при разработке пользовательских интерфейсов, чтобы обеспечить интуитивно понятное взаимодействие.

В отличие от языковых моделей, люди часто прибегают к стратегии поиска в ширину при решении задач. Это означает, что они склонны исследовать множество различных вариантов и подходов, прежде чем выбрать оптимальный путь. Такой подход позволяет рассмотреть все возможные решения, даже если это требует больше времени и усилий. В то время как модели, такие как GPT-4 и Gemini, стремятся к рациональному и эффективному выполнению задач, люди часто отдают предпочтение всестороннему изучению, чтобы убедиться, что ни один потенциальный вариант не был упущен. Этот контраст подчеркивает разницу в подходах к решению проблем между искусственным интеллектом и человеческим мышлением, где люди склонны к более полному, хотя и менее прямолинейному, исследованию возможностей.

Исследования показали умеренное совпадение между оценками языковых моделей, таких как GPT-4 и Gemini-2.5-pro, и выявленными людьми критическими точками отказа в пользовательских интерфейсах. Коэффициент Коэна Kappa составил 0.64 для GPT-4 и 0.63 для Gemini-2.5-pro, что указывает на значительную, но не абсолютную, согласованность. Более того, статистически значимые отношения шансов (Log Odds ratios) — от 5.45 до 7.5 для GPT-4 и от 2.22 до 4.72 для Gemini — демонстрируют, что модели способны выявлять проблемные места, которые могли быть упущены из виду при оценке людьми. Это говорит о том, что использование языковых моделей в анализе удобства использования может предоставить дополнительную перспективу и помочь обнаружить скрытые недостатки в интерфейсах, дополняя традиционные методы оценки.

Исследование автоматизированных когнитивных обходов с использованием больших языковых моделей закономерно выявляет расхождения между машинным и человеческим восприятием интерфейсов. Авторы справедливо отмечают, что LLM демонстрируют более высокую эффективность в завершении задач, однако их логика навигации и выявление точек отказа отличаются от таковых у людей. Этот факт лишь подтверждает старую истину, высказанную Карлом Фридрихом Гауссом: «Если бы я должен был выбрать между успехом и правильностью, я бы выбрал правильность». Ведь даже самая быстрая и эффективная система, основанная на ложных предположениях о взаимодействии с пользователем, обречена на провал. Автоматизация когнитивных обходов — полезный инструмент, но он не должен заменять глубокое понимание принципов юзабилити и человеческого мышления.

Куда же дальше?

Исследование автоматизации когнитивных обходов с использованием больших языковых моделей, как показывает практика, лишь добавляет новый уровень абстракции к уже существующим проблемам юзабилити. Модели демонстрируют способность к выполнению задач, но способность понимать, где именно пользователь споткнётся, остаётся вопросом. Это, разумеется, не ново. Вспомните все предыдущие попытки автоматизировать тестирование — каждая из них неизбежно порождала новые виды ошибок, которые требовали ручной проверки. Теперь у нас просто больше ложных срабатываний, поданных с изяществом нейросети.

Главный вопрос, который остаётся открытым, касается не столько способности модели выявлять проблемы, сколько её способности предсказывать, как эти проблемы повлияют на реального пользователя. Модель может указать на потенциальную сложность, но не сможет учесть контекст, уровень опыта, и, что самое важное, непредсказуемость человеческого поведения. Это всё равно, что заменять опытного тестировщика на алгоритм, который просто проверяет наличие определённых элементов на экране.

В ближайшем будущем, вероятно, стоит ожидать более сложных схем, объединяющих возможности LLM с ручным тестированием и анализом пользовательских данных. Впрочем, не стоит питать иллюзий. В конечном итоге, каждый «революционный» инструмент станет очередным элементом техдолга, который потребуется поддерживать и исправлять. И, как всегда, продакшен найдёт способ сломать даже самую элегантную теорию.


Оригинал статьи: https://arxiv.org/pdf/2512.03568.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-04 23:26