Взгляд как интерфейс: ИИ понимает мир вокруг вас

Автор: Денис Аветисян


Новая система ClickAIXR позволяет взаимодействовать с окружающими предметами в дополненной и виртуальной реальности с помощью естественного языка и всего лишь взгляда.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Система ClickAIXR предоставляет пользователю два подхода к получению ответов на вопросы об окружающем пространстве: в режиме
Система ClickAIXR предоставляет пользователю два подхода к получению ответов на вопросы об окружающем пространстве: в режиме «взгляд-запрос» фиксированный прямоугольник отслеживает взгляд и автоматически захватывает область интереса для последующего анализа, а в режиме «выбор-запрос» пользователь вручную задаёт границы интересующей области, после чего система преобразует голосовой запрос в текст, объединяет его с изображением и обрабатывает с помощью локальной языковой модели VLM (кодировщик-декодировщик, токенизатор) для получения ответа, предоставляемого как в текстовом, так и в аудиоформате.

ClickAIXR — это полностью локальная мультимодальная система обработки изображений и языка для расширенной реальности, обеспечивающая конфиденциальное взаимодействие с физическим миром через отслеживание взгляда и локальную обработку ИИ.

Несмотря на растущий интерес к взаимодействию с дополненной реальностью (XR), существующие системы часто полагаются на облачные вычисления или неточные методы выбора объектов. В данной работе, ‘ClickAIXR: On-Device Multimodal Vision-Language Interaction with Real-World Objects in Extended Reality’, представлена новая система, позволяющая осуществлять локальную обработку изображений и естественный язык для взаимодействия с физическим миром посредством точного выбора объектов контроллером. Ключевым результатом является разработка полностью автономного фреймворка, обеспечивающего конфиденциальность и снижающего задержки при взаимодействии с XR. Может ли подобный подход, сочетающий в себе локальный ИИ и интуитивный выбор объектов, стать основой для нового поколения доверенных и удобных XR-интерфейсов?


Преодолевая границы облачных вычислений: Необходимость интеллекта на устройстве

Традиционные модели, объединяющие зрение и язык, такие как OpenAI ChatGPT и Google Gemini, для обработки информации и генерации ответов используют облачные вычисления. Этот подход, несмотря на свою эффективность, сопряжен с определенными трудностями. Передача данных на удаленные серверы и обратно вносит задержку, что критично для приложений, требующих мгновенной реакции. Кроме того, отправка визуальной информации в облако вызывает обоснованные опасения по поводу конфиденциальности и безопасности данных, особенно в ситуациях, когда речь идет о персональной или чувствительной информации, получаемой с камер и других устройств. Необходимость постоянного подключения к сети также ограничивает возможности использования этих моделей в условиях нестабильной связи или ее отсутствия.

Зависимость от облачных вычислений существенно ограничивает возможности применения современных зрительно-языковых моделей (VLM) в средах расширенной реальности (XR). Для приложений XR, требующих мгновенной реакции на действия пользователя и высокой степени защиты персональных данных, задержки, вызванные передачей данных в облако и обратно, становятся неприемлемыми. Поскольку XR предполагает полное погружение и взаимодействие в реальном времени, даже небольшие задержки могут нарушить эффект присутствия и снизить удобство использования. Кроме того, передача данных о визуальном окружении и взаимодействиях пользователя на удаленные серверы вызывает обоснованные опасения относительно конфиденциальности и безопасности личной информации, что критически важно для широкого внедрения XR-технологий.

Переход к развертыванию языково-визуальных моделей (VLMs) непосредственно на устройствах становится критически важным для реализации всего потенциала приложений расширенной реальности (XR). В отличие от облачных решений, требующих передачи данных и вызывающих задержки, локальная обработка позволяет обеспечить мгновенный отклик, необходимый для иммерсивных XR-взаимодействий. Это особенно важно для приложений, требующих анализа визуальной информации в реальном времени, таких как распознавание объектов, понимание сцены и интерактивное взаимодействие с виртуальным окружением. Более того, обработка данных непосредственно на устройстве значительно повышает уровень конфиденциальности и безопасности, устраняя необходимость передачи чувствительной информации на удаленные серверы. Таким образом, внедрение VLM на устройствах открывает возможности для создания более отзывчивых, безопасных и функциональных XR-приложений, способных полностью реализовать потенциал этой захватывающей технологии.

Современные подходы к развертыванию моделей обработки изображений и языка на периферийных устройствах сталкиваются со значительными трудностями в достижении баланса между размером модели, вычислительными затратами и производительностью. Несмотря на прогресс в области оптимизации, время обработки одного изображения зачастую превышает несколько секунд, что делает невозможным использование таких моделей в приложениях, требующих мгновенной реакции, например, в расширенной реальности (XR). Высокая вычислительная сложность и потребность в большом объеме памяти ограничивают возможности эффективной интеграции этих моделей в мобильные устройства и другие устройства с ограниченными ресурсами, что подчеркивает необходимость разработки новых, более эффективных архитектур и методов оптимизации для обеспечения плавного и интерактивного взаимодействия в XR-средах.

Оценка надёжности и частоты ошибок показала, что участники исследования воспринимают ChatGPT и Gemini как более надёжные системы, в то время как ClickAIXR оценивается как менее надёжный и склонный к ошибкам <span class="katex-eq" data-katex-display="false">\pm 95\%</span> доверительный интервал.
Оценка надёжности и частоты ошибок показала, что участники исследования воспринимают ChatGPT и Gemini как более надёжные системы, в то время как ClickAIXR оценивается как менее надёжный и склонный к ошибкам \pm 95\% доверительный интервал.

ClickAIXR: Новая архитектура для VLM-приложений на устройстве

ClickAIXR представляет собой приложение VLM (Visual Language Model), предназначенное для работы непосредственно на устройствах расширенной реальности (XR), что позволяет избежать ограничений, присущих облачным решениям. Традиционные подходы, требующие передачи данных на удаленные серверы для обработки, сталкиваются с проблемами задержки и конфиденциальности. ClickAIXR, выполняя все вычисления локально на устройстве, обеспечивает снижение задержки, повышение конфиденциальности данных и возможность функционирования в условиях отсутствия стабильного интернет-соединения. Это особенно важно для приложений XR, требующих мгновенного отклика и бесперебойной работы в реальном времени.

Архитектура ClickAIXR использует предобученную модель ViT-GPT-2, объединяющую Vision Transformer (ViT) для кодирования визуальной информации и декодер GPT-2 для генерации текстовых ответов. ViT отвечает за извлечение признаков из изображения, преобразуя визуальные данные в векторное представление. Затем это представление подается на вход GPT-2, который генерирует соответствующий текстовый вывод. Данная комбинация позволяет системе эффективно обрабатывать визуальный ввод и генерировать связные и релевантные текстовые описания непосредственно на устройстве.

Ключевой особенностью архитектуры ClickAIXR является использование Gaze-Locked Clipping Window (GCW) — механизма, обеспечивающего точный выбор интересующих областей изображения для анализа. GCW фиксирует положение взгляда пользователя и создает область вокруг этой точки, которая используется в качестве входных данных для дальнейшей обработки моделью. Это позволяет системе фокусироваться на конкретных объектах или деталях в поле зрения пользователя, игнорируя остальную часть изображения и значительно повышая эффективность и точность анализа визуальной информации в XR-приложениях. Размер и форма области GCW могут быть динамически настроены в зависимости от потребностей конкретного приложения и точности отслеживания взгляда.

Для обеспечения эффективной работы на устройстве Magic Leap 2, система ClickAIXR использует ONNX Runtime для ускорения процесса инференса. В сочетании с библиотекой Vosk, выполняющей распознавание речи непосредственно на устройстве (ASR), достигается время обработки одного изображения в диапазоне 5.36-5.48 секунд. Использование ONNX Runtime позволяет оптимизировать модель ViT-GPT-2 для аппаратной платформы Magic Leap 2, а Vosk обеспечивает независимую от сети обработку голосовых команд, что критически важно для приложений расширенной реальности.

В ходе пользовательского исследования участники использовали ClickAIXR для взаимодействия с виртуальными объектами на Magic Leap 2, настраивая и изменяя размер рамки отслеживания взгляда (GCW) для захвата интересующих областей.
В ходе пользовательского исследования участники использовали ClickAIXR для взаимодействия с виртуальными объектами на Magic Leap 2, настраивая и изменяя размер рамки отслеживания взгляда (GCW) для захвата интересующих областей.

Валидация производительности и удобства использования ClickAIXR

Обработка данных непосредственно на устройстве в ClickAIXR позволяет значительно снизить задержку по сравнению с облачными решениями. Вместо передачи данных на удаленный сервер для анализа и последующей отправки результатов, вся обработка выполняется локально, что исключает сетевые задержки и уменьшает время отклика системы. Это особенно важно для приложений, требующих взаимодействия в реальном времени, таких как дополненная реальность и интерактивные визуализации, где даже небольшая задержка может негативно повлиять на пользовательский опыт и точность взаимодействия.

Интерфейс GCW (Gaze-Controlled Widget) обеспечивает интуитивное и точное выделение областей на визуальном контенте посредством отслеживания взгляда пользователя. Вместо традиционных методов, требующих использования мыши или сенсорного экрана, GCW позволяет пользователю выбирать интересующие области, просто направляя взгляд на них. Система использует алгоритмы обработки данных взгляда для определения центра внимания и предоставляет визуальную обратную связь, подтверждающую выбранную область. Это упрощает взаимодействие с визуальным контентом, особенно в ситуациях, когда использование рук затруднено или нежелательно, и повышает эффективность работы с изображениями и видео.

По результатам тестирования юзабилити с использованием шкалы системной пригодности (SUS) ClickAIXR показал положительную оценку пользовательского опыта — 60.0 баллов. Данный показатель сопоставим с результатом, полученным для GazePointAR (62.1), что свидетельствует о сравнимой эффективности и удобстве использования обеих систем. Шкала SUS является стандартным инструментом для оценки субъективной пригодности интерфейсов, и полученные значения указывают на приемлемый уровень юзабилити ClickAIXR для целевой аудитории.

При разработке ClickAIXR рассматривались альтернативные подходы к обнаружению объектов, включая модель YOLOv8. Однако, в процессе оценки было установлено, что YOLOv8, несмотря на высокую точность, предъявляет значительные требования к вычислительным ресурсам. Подход, реализованный в ClickAIXR с использованием GCW (Gaze-Contingent Window), был выбран как компромиссное решение, обеспечивающее приемлемый уровень точности обнаружения объектов при более низкой вычислительной стоимости, что критически важно для эффективной работы на мобильных устройствах и обеспечения минимальной задержки.

Оценка удобства использования (SUS) показала, что Gemini (<span class="katex-eq" data-katex-display="false">81.9 \pm 6.36</span>), ChatGPT (<span class="katex-eq" data-katex-display="false">76.7 \pm 8.93</span>) и ClickAIXR (<span class="katex-eq" data-katex-display="false">60.0 \pm 9.65</span>) различаются по воспринимаемому удобству, причём Gemini и ChatGPT демонстрируют значительно более высокие результаты, чем ClickAIXR.
Оценка удобства использования (SUS) показала, что Gemini (81.9 \pm 6.36), ChatGPT (76.7 \pm 8.93) и ClickAIXR (60.0 \pm 9.65) различаются по воспринимаемому удобству, причём Gemini и ChatGPT демонстрируют значительно более высокие результаты, чем ClickAIXR.

Перспективы развития: Расширение потенциала визуально-языкового интеллекта на устройстве

Несмотря на то, что модель ViT-GPT-2 демонстрирует высокую эффективность в качестве базовой конфигурации, дальнейшие исследования направлены на изучение более компактных визуально-языковых моделей, таких как BLIP-2 и LLaVa. Эти модели, обладая меньшим количеством параметров, потенциально способны значительно оптимизировать производительность на периферийных устройствах, не жертвуя при этом качеством обработки информации. Оптимизация размера модели является ключевым фактором для развертывания систем искусственного интеллекта непосредственно на мобильных телефонах, носимых устройствах и других устройствах с ограниченными вычислительными ресурсами, открывая возможности для более быстрых, энергоэффективных и конфиденциальных приложений.

В дальнейшем планируется усовершенствование интерфейса GCW и расширение его функциональных возможностей для поддержки более сложных взаимодействий. Исследования направлены на создание системы, способной не только распознавать визуальные и языковые команды, но и интерпретировать их в контексте, обеспечивая более естественный и интуитивно понятный опыт для пользователя. Разработчики стремятся к тому, чтобы GCW мог выполнять многоступенчатые задачи, адаптироваться к различным стилям общения и учитывать индивидуальные предпочтения, что откроет новые перспективы для применения в широком спектре областей, включая робототехнику, автоматизированные системы и интеллектуальные ассистенты.

Принципы, лежащие в основе ClickAIXR, обладают значительным потенциалом для расширения возможностей в различных сферах применения расширенной реальности. В частности, в области вспомогательных технологий данная концепция может предоставить людям с ограниченными возможностями новые способы взаимодействия с окружающим миром, например, через голосовое управление или распознавание жестов. В сфере образования ClickAIXR позволяет создавать интерактивные учебные среды, адаптирующиеся к потребностям каждого учащегося, что значительно повышает эффективность обучения. Кроме того, в промышленном обучении система может использоваться для моделирования реальных рабочих сценариев, обеспечивая безопасную и эффективную подготовку персонала, а также для удаленного оказания экспертной поддержки. Гибкость и адаптивность ClickAIXR открывает широкие перспективы для создания инновационных решений в этих и других областях, делая расширенную реальность более доступной и полезной для широкого круга пользователей.

Для полной реализации потенциала систем визуально-языкового интеллекта, работающих непосредственно на устройствах, необходимы дальнейшие исследования в области методов сжатия моделей и аппаратного ускорения. Ограниченные вычислительные ресурсы и энергопотребление мобильных и встроенных систем требуют разработки алгоритмов, способных значительно уменьшить размер и сложность моделей без существенной потери точности. Оптимизация архитектуры нейронных сетей, квантование весов, прунинг и дистилляция знаний — ключевые направления, позволяющие создать компактные и эффективные модели. Параллельно, использование специализированных аппаратных ускорителей, таких как нейроморфные чипы или графические процессоры, оптимизированные для задач машинного обучения, позволит значительно повысить скорость обработки данных и снизить энергопотребление, открывая возможности для широкого спектра приложений, от автономных роботов до интеллектуальных систем наблюдения.

В среднем, Gemini показал наилучший рейтинг, за ним следует ChatGPT, а ClickAIXR получил самый низкий рейтинг, что подтверждается <span class="katex-eq" data-katex-display="false"> \pm95% </span> доверительными интервалами.
В среднем, Gemini показал наилучший рейтинг, за ним следует ChatGPT, а ClickAIXR получил самый низкий рейтинг, что подтверждается \pm95% доверительными интервалами.

Исследование, представленное в данной работе, акцентирует внимание на важности локальной обработки данных для обеспечения конфиденциальности при взаимодействии с расширенной реальностью. Система ClickAIXR, позволяющая пользователям взаимодействовать с физическим миром посредством естественного языка, подчёркивает необходимость точной сегментации объектов и отслеживания взгляда. Как однажды заметил Эндрю Ын: «Самый большой барьер для успеха в машинном обучении — это не алгоритмы, а данные». Данное утверждение особенно актуально для систем, работающих в реальном времени, где качество и доступность данных напрямую влияют на эффективность и надёжность взаимодействия человека с цифровой средой. Внедрение локальных моделей, подобных ClickAIXR, позволяет минимизировать риски, связанные с передачей личной информации, и открывает новые возможности для развития персонализированных и безопасных XR-приложений.

Куда же дальше?

Представленная система ClickAIXR, безусловно, открывает новые горизонты для взаимодействия с дополненной и виртуальной реальностью. Однако, за кажущейся естественностью взаимодействия скрывается ряд вопросов, требующих дальнейшего осмысления. Точность сегментации объектов, зависящая от качества визуального ввода и вычислительных ресурсов устройства, остаётся критическим узким местом. Неизбежно возникает вопрос: насколько «естественным» является взаимодействие, если оно ограничено возможностями локального искусственного интеллекта?

Перспективным направлением представляется исследование методов адаптации моделей к индивидуальным особенностям пользователя, учитывая его зрительное восприятие и лингвистические предпочтения. Кроме того, необходимо разработать более эффективные алгоритмы для обработки неопределённости, возникающей при интерпретации естественного языка и анализе визуальной информации. Как избежать ситуаций, когда система «понимает» пользователя неверно, и как сделать эти ошибки менее заметными, а взаимодействие — более интуитивным?

В конечном счёте, ClickAIXR — это лишь первый шаг на пути к созданию действительно интеллектуальных систем, способных к полноценному диалогу с человеком в расширенной реальности. Задача заключается не в том, чтобы просто имитировать естественное взаимодействие, а в том, чтобы создать принципиально новые формы коммуникации, основанные на глубоком понимании как визуального мира, так и человеческого разума. И, разумеется, с соблюдением принципов конфиденциальности, которые, как показала практика, легко забываются в погоне за инновациями.


Оригинал статьи: https://arxiv.org/pdf/2604.04905.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-08 04:14