Умные очки нового поколения: проверка на прочность языковых моделей

Автор: Денис Аветисян

Исследователи представили комплексную платформу для оценки возможностей искусственного интеллекта в задачах, связанных с носимыми устройствами и взаимодействием с реальным миром.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Таблица 3 представляет собой рейтинг SuperGlassesLeaderboard, демонстрирующий результаты SuperLens и 26 моделей, работающих с визуальной и языковой информацией, по трем ключевым параметрам, что позволяет оценить их сравнительные возможности в области мультимодального анализа.

В статье представлен набор данных SuperGlasses и агент SuperLens для оценки и улучшения мультимодального рассуждения и возможностей использования инструментов языковыми моделями в контексте умных очков.

Несмотря на стремительное развитие моделей «зрение-язык», их оценка в контексте реальных сценариев использования «умных очков» остается проблематичной. В работе ‘SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses’ представлен новый комплексный бенчмарк SUPERGLASSES, состоящий из 2422 пар «изображение-вопрос», собранных непосредственно с носимых устройств, и агент SuperLens, демонстрирующий передовые результаты в задачах визуального вопросно-ответного взаимодействия. Полученные результаты выявили значительные пробелы в производительности существующих моделей и подчеркнули необходимость специализированных решений для «умных очков». Сможем ли мы создать действительно «умные» очки, способные эффективно взаимодействовать с окружающим миром и предоставлять релевантную информацию пользователю?

Понимание мира сквозь призму первого лица: вызовы воплощенного ИИ

Современные системы визуального вопросно-ответного анализа (VQA) сталкиваются с серьезными трудностями при обработке информации, полученной от первого лица, то есть с точки зрения наблюдателя, как если бы он сам видел происходящее. Эта особенность, известная как эгоцентрическое зрение, значительно усложняет задачу, поскольку требует от системы учета движения головы, перспективы и постоянного изменения угла обзора. В отличие от анализа статичных изображений, VQA, работающие с видеопотоком от носимых устройств, например, умных очков, должны справляться с динамичными сценами и понимать контекст происходящего, что требует значительно более сложных алгоритмов и вычислительных ресурсов. Ограниченность существующих систем в обработке эгоцентрического зрения существенно снижает их применимость в реальных жизненных ситуациях, где необходимо понимать не только то, что видно, но и то, что происходит вокруг, с учетом движения и перспективы наблюдателя.

Реальный мир характеризуется значительной неопределенностью и многозначностью, что предъявляет особые требования к системам искусственного интеллекта. Простое распознавание объектов на изображении недостаточно для понимания происходящего, поскольку один и тот же визуальный стимул может иметь различные интерпретации в зависимости от контекста. Для успешной работы в реальных условиях, искусственный интеллект должен обладать способностью к комплексному анализу ситуации, учитывая не только видимые объекты, но и их взаимосвязи, предыдущий опыт и общие знания о мире. Такой подход позволяет разрешать неоднозначности и строить более точные и надежные модели окружающей действительности, что критически важно для приложений, работающих в режиме реального времени, например, в системах с использованием «умных» очков.

Существующие наборы данных для обучения и оценки систем искусственного интеллекта, предназначенных для использования со смарт-очками, зачастую не отражают всей сложности и разнообразия реального мира. Их масштаб и реалистичность ограничены, что препятствует созданию действительно надежных и адаптивных агентов. Недостаточное количество сценариев, вариативность освещения, динамичность окружающей среды и разнообразие объектов, встречающихся в повседневной жизни, приводят к тому, что модели, успешно работающие на синтетических или упрощенных данных, демонстрируют значительно худшие результаты при взаимодействии с реальным визуальным потоком. Для достижения значимого прогресса в области воплощенного ИИ необходимо создание масштабных, детализированных и реалистичных наборов данных, отражающих все нюансы человеческого восприятия и позволяющих эффективно оценивать способность агентов к обобщению и адаптации в динамичной среде.

Для успешной ориентации в повседневной жизни искусственному интеллекту необходимо не просто распознавать визуальные образы, но и интегрировать информацию из различных источников. Игнорирование контекста, полученного из памяти о предыдущих событиях, лингвистических подсказок или даже здравого смысла, серьезно ограничивает возможности системы. Например, понимание, что «положить это на стол» подразумевает определенное действие, требует не только распознавания объекта и стола, но и знания о типичных взаимодействиях с предметами. Таким образом, эффективная работа ИИ в реальном мире подразумевает создание систем, способных к комплексному анализу и синтезу информации, объединяющих визуальные данные с другими формами знаний для принятия обоснованных решений и адекватной реакции на окружающую среду.

Набор данных SuperGlasses включает в себя 2422 пары «вопрос-ответ» к 14 категориям изображений, полученных с помощью умных очков, а также связанные с ними логи мультимодального поиска.

SuperLens: Интеллектуальный агент для умных очков с расширением знаний

SuperLens — это новый агент для умных очков, разработанный для решения задач визуального вопросно-ответного взаимодействия с использованием метода дополнения извлечением (retrieval-augmented VQA). В основе работы SuperLens лежит объединение визуальной информации, полученной с камеры очков, и текстовых данных, полученных из внешних источников. Такой подход позволяет агенту улучшить процесс рассуждения и предоставлять более точные ответы на вопросы, требующие анализа как визуального контента, так и знаний из внешних баз данных. В отличие от традиционных моделей визуально-языкового взаимодействия, SuperLens активно использует внешние знания для повышения своей способности к логическому выводу и пониманию контекста.

Ключевым компонентом SuperLens является Dual-Lens Knowledge Retriever (Двойной Объектив Получения Знаний), система динамического объединения информации, полученной посредством визуального обнаружения объектов и из веб-источников. Визуальное обнаружение объектов позволяет идентифицировать и локализовать предметы в поле зрения пользователя, предоставляя контекстную информацию о сцене. Одновременно с этим, система осуществляет поиск соответствующей информации в интернете, используя идентифицированные объекты в качестве поисковых запросов. Полученные из сети данные объединяются с визуальной информацией, формируя расширенную базу знаний, используемую для ответа на вопросы пользователя. Динамическое объединение данных позволяет системе адаптироваться к различным сценариям и повысить точность ответов, используя наиболее релевантную информацию из обоих источников.

Агент Demand-Adaptive Answerer в SuperLens динамически переключается между двумя подходами к ответам на вопросы: прямым ответом, основанным на внутренних знаниях модели, и генерацией ответа с использованием извлеченной информации. Выбор стратегии зависит от сложности вопроса и доступности релевантных данных. Прямой ответ используется для простых вопросов, требующих минимальных вычислений, что обеспечивает высокую скорость ответа. В случае сложных вопросов или при необходимости доступа к внешней информации, активируется режим генерации с использованием извлеченных данных, что повышает точность ответа. Такой адаптивный подход позволяет оптимизировать как скорость, так и точность ответов, обеспечивая оптимальную производительность в различных сценариях использования.

В ходе тестирования на бенчмарке SuperGlasses, система SuperLens продемонстрировала точность в 44.10%. Этот результат превосходит показатели существующих мультимодальных моделей (VLMs) и обеспечивает прирост в 2.19% по сравнению с моделью GPT-4o. Данный показатель точности является ключевым подтверждением эффективности разработанной архитектуры и подхода к поиску и использованию релевантной информации для ответов на вопросы, основанные на визуальном и текстовом контексте.

Предлагаемая система SuperLens объединяет адаптивный модуль ответов и двойной модуль извлечения знаний, при этом синие компоненты основаны на больших языковых моделях (ВЯМ), а зеленые - на внешних инструментах. — Предлагаемая система SuperLens объединяет адаптивный модуль ответов и двойной модуль извлечения знаний, при этом синие компоненты основаны на больших языковых моделях (ВЯМ), а зеленые — на внешних инструментах.

Создание SuperGlasses: Конвейер для получения реальных данных

Набор данных SuperGlasses был сформирован с использованием четырехэтапного конвейера A4 (Acquirement, Annotation, Assessment, Analysis), разработанного для обеспечения качества и согласованности данных. Этап Acquirement отвечает за сбор данных, Annotation — за их разметку, Assessment — за оценку качества разметки и выявление ошибок, а Analysis — за анализ полученных данных и их подготовку к использованию в моделях машинного обучения. Использование структурированного конвейера A4 позволило создать надежный и воспроизводимый набор данных для обучения и оценки моделей, работающих с данными из носимых устройств.

Сбор данных для набора SuperGlasses осуществлялся с использованием платформы Ray-Ban Meta AI Glasses, что позволило получить реалистичные изображения с точки зрения первого лица. Эта технология обеспечила возможность записи видео и изображений непосредственно из поля зрения пользователя в реальных условиях, имитируя естественный визуальный опыт. Использование носимых очков позволило собрать данные, отражающие повседневные сценарии и взаимодействия, в отличие от данных, полученных из контролируемой лабораторной среды, что повышает применимость полученных моделей к реальным задачам.

Двухлинзовый извлекатель знаний (Dual-Lens Knowledge Retriever) использует веб-ридер для извлечения и очистки текстовой информации из сети Интернет, что дополняет визуальный анализ. Веб-ридер осуществляет автоматическое извлечение текста с веб-страниц, удаляя при этом посторонние элементы, такие как HTML-теги и нерелевантные символы. Полученные текстовые данные используются для расширения контекста, необходимого для понимания визуальной информации, полученной из изображений, что позволяет системе более точно отвечать на сложные запросы и выполнять многоступенчатые рассуждения.

Модель SuperLens продемонстрировала повышение точности на 21% по сравнению с LLaMA-3.2-11B при решении задач, требующих последовательного рассуждения на основе четырех шагов (4-hop questions). Данный результат свидетельствует об эффективности SuperLens в обработке сложных запросов, требующих многоступенчатого анализа и сопоставления информации из различных источников. Повышение точности указывает на улучшенную способность модели к удержанию контекста и логическому выводу при решении задач, требующих последовательного применения знаний.

Исследование SuperGlasses на примере банки супа Campbell демонстрирует возможности системы в распознавании и взаимодействии с объектами.

К всеобъемлющему воплощенному интеллекту: перспективы и направления развития

Разработка SuperGlasses и SuperLens знаменует собой важный прогресс в создании искусственного интеллекта, способного беспрепятственно взаимодействовать с реальным миром. Эти системы объединяют в себе передовые технологии визуального восприятия и возможности логического вывода, позволяя агентам не просто «видеть», но и понимать контекст окружающей среды. В отличие от традиционных систем, работающих с изолированными изображениями, SuperGlasses и SuperLens оперируют непосредственно в физическом пространстве, что открывает новые горизонты для робототехники, вспомогательных технологий и приложений дополненной реальности. Способность к рассуждениям в условиях реального мира позволяет этим системам выполнять сложные задачи, требующие адаптации к меняющимся обстоятельствам и понимания намерений пользователей, приближая нас к созданию действительно «умных» агентов, способных к полноценному взаимодействию с человеком и окружающим миром.

Возможность сложного рассуждения в воплощенном контексте открывает широкие перспективы для развития вспомогательных технологий, робототехники и приложений дополненной реальности. Представьте себе, например, «умные» очки, помогающие слабовидящим ориентироваться в пространстве, не просто распознавая объекты, но и предсказывая их поведение, или роботов-помощников, способных не только выполнять заданные команды, но и адаптироваться к изменяющимся условиям окружающей среды, принимая обоснованные решения. Внедрение подобного типа интеллекта в физический мир позволяет создавать системы, которые не просто реагируют на стимулы, но и понимают намерения, предвидят последствия и действуют автономно, что является ключевым шагом к созданию по-настоящему полезных и адаптивных интеллектуальных агентов.

Ограничения систем, полагающихся исключительно на зрение, становятся все более очевидными при взаимодействии со сложным миром. Для преодоления этих трудностей активно разрабатываются подходы, объединяющие визуальное восприятие с внешними источниками знаний. Такой симбиоз позволяет не просто распознавать объекты на изображении, но и понимать их функции, взаимосвязи и контекст. Например, система, увидев кухонный нож, может получить информацию о его назначении и потенциальной опасности из базы знаний, что значительно расширяет возможности принятия решений и безопасного взаимодействия с окружающей средой. Интеграция с внешними источниками позволяет системе «достраивать» картину мира, преодолевая неоднозначность визуальных данных и обеспечивая более надежное и интеллектуальное поведение в реальных условиях.

Дальнейшие исследования направлены на повышение эффективности и масштабируемости разработанной системы, что позволит расширить спектр ее применения в различных областях. Ученые планируют оптимизировать алгоритмы обработки данных и снизить вычислительные затраты, чтобы обеспечить работу системы в реальном времени на более доступном оборудовании. Особое внимание уделяется изучению возможностей интеграции с другими технологиями, такими как робототехника, дополненная реальность и системы помощи людям с ограниченными возможностями. Предполагается, что усовершенствованная система найдет применение в автоматизации логистических процессов, создании интеллектуальных систем управления транспортом и разработке персонализированных образовательных программ. Исследователи также стремятся к созданию более гибкой и адаптивной системы, способной самостоятельно обучаться и решать новые задачи в динамично меняющейся среде.

Анализ вопросов и ответов в SuperGlasses выявил общие тематики, определяющие основные направления обсуждений.

Исследование, представленное в статье, подчеркивает важность создания специализированных наборов данных для оценки возможностей моделей обработки естественного языка и зрения в контексте носимых устройств, таких как умные очки. Данный подход позволяет более точно определить сильные и слабые стороны существующих систем, а также стимулировать разработку новых, более эффективных алгоритмов. Как однажды отметил Эндрю Ын: «Мы находимся в точке, когда данные являются топливом для обучения, а алгоритмы — это двигатель прогресса». Создание SuperGlasses, с акцентом на эгоцентричные данные и траектории использования инструментов, является ярким примером того, как целенаправленное формирование данных может ускорить развитие интеллектуальных агентов и приблизить нас к созданию действительно полезных и интуитивно понятных систем дополненной реальности.

Что дальше?

Представленный набор данных SuperGlasses и агент SuperLens, безусловно, отмечают прогресс в оценке возможностей моделей «зрение-язык» для носимых устройств. Однако, истинное понимание систем требует признания нерешенных вопросов. Успешное функционирование в реальном мире, как показывает практика, выходит за рамки простого ответа на вопросы. Необходимо учитывать динамичность окружения, непредсказуемость действий пользователя и, что особенно важно, необходимость долгосрочной адаптации и обучения.

В дальнейшем, исследования должны сосредоточиться на преодолении ограничений существующих моделей в области рассуждений о пространстве и времени. Агент, способный не просто идентифицировать объекты, но и предсказывать их поведение, представляется более полезным. Кроме того, анализ «следов» использования инструментов, предложенный в данной работе, может стать основой для разработки более эффективных стратегий обучения с подкреплением, учитывающих не только результат, но и процесс достижения цели.

В конечном итоге, оценка интеллекта агента не должна сводиться к тестам на «одноразовое» выполнение задач. Истинным критерием станет способность к непрерывному обучению и адаптации в сложной и непредсказуемой среде, что, по сути, и является проявлением разума. Иначе, все эти усилия останутся лишь демонстрацией статистических закономерностей, а не подлинным шагом к созданию «умных» очков.

Оригинал статьи: https://arxiv.org/pdf/2602.22683.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-01 12:48