Голос в Саду: Искусственный Интеллект как Гид в Мире Смешанной Реальности

Автор: Денис Аветисян

Исследование показывает, как разговорный ИИ может стать ключевым элементом интерактивных выставок под открытым небом, улучшая впечатления посетителей и углубляя погружение в контент.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

В ходе демонстрации смешанной реальности в масштабе кампуса посетители исследовали площадку, используя шлемы, в то время как Dream-Butterfly, сохраняя ненавязчивое поведение, следовала поблизости и активировалась по требованию.

Работа посвящена исследованию взаимодействия человека и искусственного интеллекта в крупномасштабных выставках смешанной реальности с акцентом на роль ИИ в качестве гида и интерпретатора.

Масштабные мультимедийные выставки в общественных пространствах часто сталкиваются с проблемой обеспечения индивидуального подхода к каждому посетителю. В рамках исследования ‘Whispers of the Butterfly: A Research-through-Design Exploration of In-Situ Conversational AI Guidance in Large-Scale Outdoor MR Exhibitions’ была разработана система Dream-Butterfly — виртуальный гид на основе разговорного ИИ, призванный предоставить персонализированные объяснения экспонатов на нескольких языках. Полученные результаты ( $\mathcal{N}=24$ ) демонстрируют, что передача основной роли интерпретатора ИИ-гиду способна повысить вовлеченность и ощущение погружения посетителей, при этом сохраняя необходимость участия персонала для обеспечения безопасности и точности перевода. Какие новые возможности открывает совместное использование человеческого интеллекта и ИИ в создании интерактивных мультимедийных пространств будущего?

По ту сторону табличек: переосмысление интерпретации в публичном пространстве

Традиционные подходы к интерпретации экспонатов в музеях и галереях, как правило, опираются на статичные таблички с информацией или организованные экскурсии, что существенно ограничивает самостоятельность посетителя и часто приводит к образованию заторов. Такая схема предполагает пассивное восприятие, не позволяя каждому зрителю самостоятельно исследовать произведение искусства в удобном темпе и с интересующей его точки зрения. В результате, индивидуальный опыт оказывается нивелированным, а возможность личного взаимодействия с объектом искусства — ограниченной, поскольку акцент смещается с созерцания на необходимость следовать заданному маршруту или читать предписанный текст. Данная модель интерпретации, эффективная в контролируемой среде, оказывается неадекватной для современных художественных пространств, требующих большей гибкости и вовлечения аудитории.

Растущее число произведений искусства в публичном пространстве ставит перед специалистами задачу разработки новых подходов к их интерпретации. В отличие от музеев и галерей, где информация предоставляется в строго определенном порядке, открытые городские площадки требуют гибких решений, адаптирующихся к динамике окружающей среды и предпочтениям посетителей. Традиционные методы, такие как стационарные таблички или экскурсии, зачастую оказываются неэффективными в условиях отсутствия четких границ и постоянного потока людей. Необходимо учитывать особенности восприятия в неформальной обстановке, а также обеспечивать доступность информации для широкой аудитории, не нарушая при этом естественного взаимодействия с произведением искусства и окружающей средой. Поэтому, возникает потребность в интерактивных, персонализированных системах, способных предоставлять информацию по запросу и учитывать индивидуальные интересы каждого зрителя.

Существующие подходы к предоставлению информации об искусстве в общественных пространствах часто сталкиваются с трудностями в обеспечении персонализированного опыта. Традиционные методы, такие как печатные буклеты или аудиогиды, могут быть неактуальны или неудобны для восприятия в динамичной среде. Попытки внедрения интерактивных киосков или мобильных приложений нередко приводят к перегрузке информацией, отвлекая посетителей от непосредственного взаимодействия с произведением искусства и нарушая естественный ритм прогулки. Особенно остро эта проблема проявляется в отношении спонтанных посетителей, которые не планировали заранее получать подробные сведения, но при этом заинтересованы в быстром и понятном ответе на возникший вопрос. Поэтому, разработка адаптивных систем, способных предоставлять релевантную информацию по запросу, не нарушая при этом атмосферу и свободу передвижения в общественном пространстве, представляет собой важную задачу.

Интерактивные метки, используемые в уличной MR-экспозиции, позволяют посетителям получать базовую информацию о произведениях, но их ограниченный размер и статичное отображение препятствуют предоставлению подробных пояснений и возможности двустороннего взаимодействия.

Dream-Butterfly: ИИ-гид, рожденный не из стали, а из крыльев

В рамках крупномасштабной уличной MR-экспозиции был разработан Dream-Butterfly — разговорный ИИ-гид, реализованный в виде негуманоидного компаньона. Данное решение обеспечивает объяснения по запросу, предоставляя посетителям возможность получать информацию непосредственно в месте осмотра экспонатов. ИИ-гид функционирует как встроенная часть окружения, что позволяет посетителям взаимодействовать с ним для получения разъяснений по интересующим темам в удобном для них темпе и формате.

В конфигурации “Dream-Butterfly” приоритет отдается взаимодействию, инициированному посетителем. Это означает, что система не предоставляет навязчивые экскурсии или заранее определенные маршруты, а реагирует исключительно на запросы пользователей. Посетители могут самостоятельно выбирать интересующие их объекты и темы, получая объяснения и дополнительную информацию по требованию. Такой подход позволяет им исследовать выставку в собственном темпе, углубляясь в аспекты, представляющие наибольший интерес, и формируя индивидуальный опыт взаимодействия с контентом.

При разработке системы `Dream-Butterfly` сознательное воплощение искусственного интеллекта в негуманоидную сущность было продиктовано стремлением снизить ожидания пользователей относительно реалистичности и сложности взаимодействия. Это позволило избежать эффекта «зловещей долины» и создать более комфортную среду для спонтанных запросов и исследовательского поведения. Использование негуманоидного образа способствует восприятию системы как помощника, ориентированного на предоставление информации, а не на имитацию человеческого общения, что, в свою очередь, стимулирует более свободное и игровое взаимодействие с выставкой.

Перед началом посещения выставки смешанной реальности каждому участнику демонстрируется внутригарнитурный обучающий модуль, обеспечивающий пошаговое освоение взаимодействия с виртуальными метками и голосового общения с интерактивной бабочкой Dream-Butterfly, включающее выбор языка, активацию виртуальной метки при наведении контроллера и удержании кнопки захвата для вызова ИИ-помощника и последующего диалога.

Сила понимания: генерация с поиском в основе Dream-Butterfly

Система Dream-Butterfly использует подход генерации с поиском (Retrieval-Augmented Generation) для формирования ответов. Этот подход предполагает, что при поступлении запроса от посетителя, система сначала обращается к специально подготовленной базе знаний, содержащей информацию об экспонатах и темах выставки. Затем, на основе найденных релевантных фрагментов, генерируется ответ, что позволяет предоставлять более точную и контекстуально обоснованную информацию, чем при использовании только предварительно обученной модели. База знаний регулярно обновляется и курируется для обеспечения актуальности и достоверности предоставляемых ответов.

Система Dream-Butterfly использует семантический поиск для выявления наиболее релевантной информации, основываясь на смысловом содержании вопроса посетителя. В отличие от простого сопоставления ключевых слов, семантический поиск анализирует значение запроса и контекст, что позволяет системе находить ответы, соответствующие не только конкретным терминам, но и общей теме вопроса. Этот подход обеспечивает предоставление контекстуально точных и содержательных объяснений, напрямую связанных с содержанием выставки и представленными произведениями искусства. Алгоритмы семантического поиска учитывают синонимы, связи между понятиями и общее значение фразы для обеспечения наиболее точного и релевантного ответа.

В отличие от систем, основанных на простом сопоставлении ключевых слов, Dream-Butterfly обеспечивает более глубокое и информативное взаимодействие с пользователем. Благодаря использованию семантического поиска и генерации ответов на основе извлеченной информации, система способна понимать смысл запроса посетителя и предоставлять релевантные объяснения, выходящие за рамки буквального совпадения слов. Это позволяет Dream-Butterfly создавать более содержательные и увлекательные ответы, адаптированные к контексту произведения искусства и тематике выставки, что значительно повышает вовлеченность пользователя.

Процесс создания ассета «Бабочка-мечта» включает в себя моделирование в C4D, риггинг и настройку деформации крыльев, разработку материалов и рендеринг в игровом движке для получения оптимизированного ассета с прозрачным фоном.

От идеи к реальности: итеративный дизайн и усовершенствование

В основе разработки Dream-Butterfly лежал подход, основанный на исследовании через дизайн, позволяющий наблюдать за взаимодействием посетителей и последовательно совершенствовать реакцию и поведение системы. Этот итеративный процесс предполагал постоянный анализ данных, полученных в результате взаимодействия, и внесение корректировок в алгоритмы и ответы системы. Наблюдая за тем, как посетители реагируют на различные стимулы и запросы, разработчики могли точно настроить Dream-Butterfly, чтобы обеспечить максимально увлекательный и информативный опыт. Такой подход позволил создать систему, которая не только предоставляет информацию, но и адаптируется к потребностям и предпочтениям каждого посетителя, обеспечивая индивидуальный и запоминающийся опыт взаимодействия.

В процессе разработки и совершенствования системы Dream-Butterfly активно использовалась модель GPT-4o для обработки больших объемов данных. Эта нейросеть помогла не только очистить и структурировать информацию, полученную из взаимодействий с посетителями, но и проанализировать содержание их бесед, выявляя ключевые темы и закономерности. Полученные результаты были визуализированы, что позволило исследователям более эффективно интерпретировать данные и оперативно вносить коррективы в работу системы, обеспечивая её адаптацию к потребностям аудитории и повышение качества предоставляемой информации.

Исследование показало, что использование искусственного интеллекта в качестве основного канала для предоставления интерпретаций значительно повышает восприятие информации посетителями. В частности, оценка доступности объяснений в системе, управляемой ИИ, составила 5.46, в то время как в группе, где интерпретацию осуществлял человек, этот показатель был равен 3.92 (p=0.0013). Аналогичным образом, уровень вовлеченности и погружения в опыт оказался существенно выше при использовании ИИ (5.48), по сравнению с человеческим сопровождением (4.38, p=0.0028). Полученные данные свидетельствуют о том, что правильно сконфигурированный ИИ-гид способен обеспечить более эффективное и увлекательное взаимодействие с информацией, чем традиционные методы интерпретации.

Взгляд в будущее: безопасность, развертывание и новый пользовательский опыт

Успешное внедрение Dream-Butterfly в рамках масштабной уличной выставки смешанной реальности потребовало разработки надежной системы обеспечения безопасности, направленной на предотвращение потенциальных рисков и защиту посетителей. Организаторы уделили особое внимание анализу окружающей среды, включая особенности ландшафта и пешеходных потоков, для минимизации вероятности столкновений или травм. Кроме того, была разработана процедура оперативного реагирования на чрезвычайные ситуации, включающая подготовленный персонал и четкие инструкции для посетителей. Постоянный мониторинг работы системы и сбор обратной связи от участников выставки позволили оперативно выявлять и устранять возникающие недочеты, гарантируя безопасное и комфортное взаимодействие с технологией Dream-Butterfly для всех присутствующих.

Развертывание системы в реальных условиях открытой площадки представляло собой ряд специфических трудностей, связанных с навигацией, доступностью и взаимодействием с другими посетителями. Для обеспечения безопасности и комфорта участников выставки потребовалась тщательная предварительная проработка маршрутов, учитывающая рельеф местности и плотность людского потока. Особое внимание уделялось созданию интуитивно понятной системы ориентации, позволяющей пользователям свободно перемещаться, не создавая помех окружающим. Кроме того, разработчики предусмотрели механизмы для предотвращения случайных столкновений и обеспечения доступности системы для людей с ограниченными возможностями, что стало ключевым фактором успешной интеграции технологии в общественное пространство.

Исследование выявило существенное превосходство Dream-Butterfly над традиционным сопровождением человека в плане субъективного восприятия удовольствия. Участники эксперимента оценили свой опыт использования Dream-Butterfly на 2.15 балла, в то время как оценка опыта, полученного при сопровождении человеком, составила -1.19 (p<0.001). Данное статистически значимое различие указывает на то, что взаимодействие с Dream-Butterfly не просто функционально, но и вызывает более позитивные эмоции и ощущение вовлеченности, что подчеркивает потенциал технологии для создания принципиально нового пользовательского опыта и повышения общей удовлетворенности от взаимодействия.

Исследование демонстрирует, что перенос основной ответственности за интерпретацию на разговорного ИИ-гида в крупномасштабной выставке смешанной реальности способен улучшить опыт посетителей и степень их погружения. Однако, как показывает практика, полагаться исключительно на автоматизацию — наивная затея. Грейс Хоппер однажды заметила: «Лучший способ предсказать будущее — создать его». И в данном случае, создание будущего опыта посетителей требует сочетания возможностей ИИ и присутствия человека, особенно когда речь идет о безопасности и адекватной лингвистической поддержке. Иначе, красивые схемы «бесконечной масштабируемости» неизбежно столкнутся с суровой реальностью, когда система не сможет обработать запрос на незнакомом диалекте или возникнет ситуация, требующая немедленного вмешательства.

Что дальше?

Представленная работа, как и все исследования в области смешанной реальности, обнажила лишь верхушку айсберга будущих сложностей. Перекладывание основной интерпретационной нагрузки на разговорный ИИ в крупномасштабных выставках, безусловно, демонстрирует потенциал для повышения вовлеченности посетителей. Однако, это лишь иллюзия контроля. Внедрение, как показывает практика, всегда оборачивается тоннами краевых случаев, которые элегантные алгоритмы, конечно же, не учли. Заманчивая идея многоязыковой поддержки быстро столкнётся с нюансами, которые даже самый продвинутый переводчик не сможет передать без потери смысла — и, что более вероятно, без добавления новых, неожиданных ошибок.

Вместо того чтобы стремиться к созданию всезнающего цифрового гида, стоит сосредоточиться на более приземленных задачах. Например, как сделать так, чтобы этот самый гид не мешал персоналу обеспечивать безопасность посетителей. Как оптимизировать энергопотребление, когда в поле зрения окажется сразу несколько десятков AR-устройств? А главное — как быстро адаптировать систему к изменениям в экспозиции, которые, как известно, всегда происходят в последний момент?

В конечном итоге, всё это — лишь временное облегчение. Вскоре появится новое поколение технологий, которые потребуют полного пересмотра всех накопленных знаний. И тогда, как обычно, придётся начинать всё сначала. Так что, давайте просто продлим страдания этой системы ещё на немного, пока не найдётся что-нибудь получше.

Оригинал статьи: https://arxiv.org/pdf/2602.05826.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-02-06 21:00