Ориентиры по запросу: Как искусственный интеллект помогает слабовидящим исследовать мир

Автор: Денис Аветисян


Новая система позволяет людям с нарушениями зрения создавать голосовые метки для пространственных ориентиров и использовать их для самостоятельной навигации и изучения окружающего пространства.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Система NaviNote позволяет слабовидящим и незрячим пользователям исследовать окружающую среду посредством пятиэтапного процесса, включающего определение точного местоположения с помощью системы визуального позиционирования (VPS) в предварительно отсканированной области, последующее получение инструкций для навигации, прослушивание пространственных аннотаций, созданных другими пользователями, возможность задавать уточняющие вопросы и самостоятельное добавление новых аннотаций, при этом взаимодействие осуществляется с помощью смартфона, закрепленного на специальном жилете с направленной вперед камерой.
Система NaviNote позволяет слабовидящим и незрячим пользователям исследовать окружающую среду посредством пятиэтапного процесса, включающего определение точного местоположения с помощью системы визуального позиционирования (VPS) в предварительно отсканированной области, последующее получение инструкций для навигации, прослушивание пространственных аннотаций, созданных другими пользователями, возможность задавать уточняющие вопросы и самостоятельное добавление новых аннотаций, при этом взаимодействие осуществляется с помощью смартфона, закрепленного на специальном жилете с направленной вперед камерой.

Исследователи представили NaviNote — систему, использующую визуальные системы позиционирования и большие языковые модели для создания голосовых аннотаций и помощи в навигации для слабовидящих и незрячих людей.

Несмотря на развитие GPS и смартфонов для создания привязанных к местоположению заметок, существующие системы остаются недостаточно точными и удобными для незрячих и слабовидящих пользователей. В данной работе, посвященной разработке системы ‘NaviNote: Enabling In-situ Spatial Annotation Authoring to Support Exploration and Navigation for Blind and Low Vision People’, представлен инновационный подход, объединяющий высокоточные визуальные системы позиционирования и интеллектуальных агентов для создания голосового интерфейса авторства пространственных аннотаций и навигации. Проведенные исследования с участием пользователей показали значительное улучшение производительности навигации и повышение понимания окружающего пространства благодаря системе NaviNote. Какие новые возможности откроются для повышения самостоятельности и улучшения качества жизни людей с нарушениями зрения при дальнейшем развитии подобных технологий?


Навигация в мире ограничений: вызовы для людей с нарушениями зрения

Люди с нарушениями зрения и слабовидящие сталкиваются с серьезными трудностями в обеспечении собственной мобильности и понимании окружающего пространства. Эта проблема выходит далеко за рамки простой ориентации в пространстве; она затрагивает способность полноценно участвовать в повседневной жизни, посещать общественные места, работать и поддерживать социальные связи. Отсутствие доступной информации об окружающей среде — будь то расположение объектов, препятствий или изменений в планировке — создает значительные риски и ограничения для самостоятельного передвижения. Невозможность получать детальное представление об окружении требует повышенной концентрации, увеличивает когнитивную нагрузку и зачастую приводит к чувству неуверенности и зависимости от посторонней помощи. Поэтому, разработка эффективных и доступных технологий, направленных на повышение самостоятельности людей с нарушениями зрения, является важной задачей, способствующей их социальной интеграции и улучшению качества жизни.

Существующие вспомогательные средства для навигации, такие как трости и базовые GPS-приложения, зачастую оказываются недостаточно детализированными для эффективного ориентирования в сложных условиях городской среды. Традиционные методы предоставляют лишь общую информацию о направлении, не учитывая динамически меняющиеся препятствия, детали ландшафта или контекст окружающей обстановки. Это создает значительные трудности для людей с нарушениями зрения, поскольку требует от них постоянного анализа и интерпретации неполных данных. Исследования показывают, что недостаток гранулярности и адаптивности в существующих системах снижает уверенность в самостоятельной навигации и ограничивает возможности полноценного участия в общественной жизни. Поэтому возникает необходимость в разработке инновационных решений, способных предоставлять детальную, контекстную и оперативно обновляемую пространственную информацию, адаптированную к индивидуальным потребностям пользователей.

Остро ощущается потребность в системах, предоставляющих слепым и слабовидящим людям не просто базовые указания направления, но и детальную, контекстуальную информацию об окружающем пространстве. Такие системы должны выходить за рамки простых команд типа «налево» или «направо», предоставляя, например, сведения о расположении объектов, их размере, форме, а также об особенностях поверхности — наличии ступеней, бордюров или препятствий. Это позволит пользователям формировать более полное представление об окружающей среде, планировать маршруты с учетом конкретных обстоятельств и, в конечном итоге, значительно повысить уровень их самостоятельности и уверенности при перемещении в пространстве. Недостаточно лишь указать направление; необходимо предоставить информацию, позволяющую понимать окружающую обстановку.

Интерфейс NaviNote обеспечивает наглядное взаимодействие с системой, демонстрируя ответы на запросы пользователя, отображение путей навигации и автоматическое воспроизведение предупреждений о безопасности, дополняя голосовое управление и учитывая требования DG6.
Интерфейс NaviNote обеспечивает наглядное взаимодействие с системой, демонстрируя ответы на запросы пользователя, отображение путей навигации и автоматическое воспроизведение предупреждений о безопасности, дополняя голосовое управление и учитывая требования DG6.

NaviNote: Голосовой помощник для пространственной ориентации

Система NaviNote разработана как голосовой интерфейс, предназначенный для расширения возможностей пользователей с нарушениями зрения (BLV) посредством создания и доступа к пространственным аннотациям. Она позволяет пользователям оставлять и получать голосовые заметки, привязанные к конкретным местоположениям в окружающем пространстве, обеспечивая контекстную информацию об окружающей среде. В отличие от традиционных методов, требующих визуального взаимодействия или ручного ввода координат, NaviNote использует голосовое управление для упрощения процесса создания и доступа к этим аннотациям, делая информацию более доступной и интуитивно понятной для незрячих и слабовидящих пользователей.

В основе системы NaviNote лежит использование мультимодальных больших языковых моделей (MLLM), обеспечивающих взаимодействие с пользователем посредством естественного языка и голосового управления. MLLM позволяют обрабатывать как голосовые команды, так и текстовые запросы, преобразуя их в действия внутри системы. Эта технология позволяет пользователям создавать, редактировать и получать доступ к пространственным аннотациям без необходимости использования традиционных методов ввода, таких как клавиатура или мышь, значительно упрощая и ускоряя процесс работы с информацией об окружающей среде. Использование MLLM обеспечивает высокую точность распознавания речи и понимания естественного языка, что критически важно для интуитивного и эффективного взаимодействия с системой.

В основе функциональности NaviNote лежит концепция пространственных аннотаций — привязанных к местоположению заметок, предоставляющих контекстную информацию об окружающей среде. Эти аннотации позволяют пользователям создавать и получать доступ к цифровым меткам, связанным с конкретными точками в физическом пространстве. Каждая аннотация содержит текстовую информацию, введенную голосом, и географические координаты, определяющие ее местоположение. Система обеспечивает возможность поиска и фильтрации аннотаций по ключевым словам или местоположению, что позволяет пользователям быстро находить релевантную информацию об окружающем их мире. Данные аннотации могут содержать описания объектов, предупреждения об опасностях, инструкции или любую другую полезную информацию, которую пользователь считает важной для запоминания и передачи.

NaviNote обеспечивает взаимодействие с пользователем посредством голосовых запросов, навигации к интересующим объектам и аннотациям с использованием алгоритма A* и непрерывного доступа к ближайшим аннотациям на основе данных VPS.
NaviNote обеспечивает взаимодействие с пользователем посредством голосовых запросов, навигации к интересующим объектам и аннотациям с использованием алгоритма A* и непрерывного доступа к ближайшим аннотациям на основе данных VPS.

Техническая основа: Локализация, сканирование и архитектура ИИ

Система NaviNote использует Визуальную Позиционную Систему (VPS) для обеспечения высокоточной локализации и понимания сцены. VPS работает путем сопоставления визуальных данных, получаемых с камеры устройства, с предварительно созданными 3D-картами окружения. Это позволяет определить точное местоположение устройства в пространстве с точностью, значительно превосходящей возможности GPS или других методов позиционирования, особенно в условиях ограниченной видимости GPS-сигнала, таких как внутренние помещения или городские каньоны. Точное позиционирование является основой для всех последующих функций, включая навигацию, распознавание объектов и контекстное взаимодействие с окружающей средой.

Создание детализированных трехмерных карт окружения в NaviNote осуществляется за счет использования технологии краудсорсинга сканирования. Пользователи, оснащенные совместимыми устройствами, вносят вклад в сбор данных об окружающей среде, что позволяет системе адаптироваться и функционировать в различных, ранее не изученных локациях. Этот подход значительно снижает затраты на создание и поддержание карт по сравнению с традиционными методами, а также обеспечивает более широкое покрытие и актуальность информации. Полученные данные обрабатываются и объединяются для формирования детальных моделей, используемых для позиционирования и навигации.

Архитектура AI-агентов в NaviNote обеспечивает эффективную обработку пространственной информации и пользовательских запросов посредством организации специализированных агентов для выполнения конкретных задач. Каждый агент оптимизирован для определенной функции, такой как обработка данных с датчиков, распознавание объектов, планирование маршрута или взаимодействие с пользователем. Данная модульная структура позволяет системе масштабироваться и адаптироваться к различным средам и потребностям пользователей, распределяя вычислительную нагрузку и обеспечивая параллельную обработку данных. Взаимодействие между агентами осуществляется через стандартизированные интерфейсы, что обеспечивает гибкость и упрощает интеграцию новых функциональных возможностей.

Субъективная оценка пользователей показала, что NaviNote превосходит базовую систему по показателям воспринимаемой эффективности, простоты использования, ментальной нагрузки, физической нагрузки, самооценки производительности и уровня фрустрации.
Субъективная оценка пользователей показала, что NaviNote превосходит базовую систему по показателям воспринимаемой эффективности, простоты использования, ментальной нагрузки, физической нагрузки, самооценки производительности и уровня фрустрации.

Категории аннотаций и оценка системы

Система NaviNote поддерживает широкий спектр категорий аннотаций, включающий Безопасность, Доступность, Удобства, Планировку, Достопримечательности и Впечатления, что позволяет предоставлять богатую контекстную информацию о среде. Классификация аннотаций по этим категориям обеспечивает детализированное описание различных аспектов пространства, от потенциальных опасностей и особенностей доступности для людей с ограниченными возможностями, до информации об имеющихся удобствах, планировке помещений, интересных местах и общем пользовательском опыте. Такая детализация позволяет пользователям получать более полное и релевантное представление об окружающей среде, что повышает эффективность навигации и улучшает общее взаимодействие с пространством.

Проектирование системы NaviNote осуществлялось на основе предварительного формирующего исследования, направленного на выявление потребностей и особенностей пользователей с нарушениями зрения (BLV). В рамках исследования были проведены интервью и наблюдения, позволившие определить ключевые аспекты навигации, представляющие наибольшую сложность для данной целевой аудитории. Полученные данные были использованы для определения приоритетных функциональных требований и особенностей интерфейса, что обеспечило соответствие NaviNote реальным потребностям пользователей и повысило ее эффективность в процессе эксплуатации.

В ходе проведенного исследования было продемонстрировано, что использование NaviNote позволило 14 из 16 участников успешно выполнить навигацию по маршруту, в то время как с использованием базовой системы справились только 6 участников. Оценка эффективности системы с использованием шкал UMUX-LITE и NASA-TLX показала значительно более высокие показатели воспринимаемой эффективности и самооценки производительности при использовании NaviNote. Кроме того, было зафиксировано статистически значимое снижение ментальной нагрузки (NASA-TLX) при навигации с использованием данной системы.

В ходе исследования небольшие группы участников разрабатывали прототипы тактильных карт с аудиоаннотациями, обозначая места расположения кнопок с записями при помощи пластилина.
В ходе исследования небольшие группы участников разрабатывали прототипы тактильных карт с аудиоаннотациями, обозначая места расположения кнопок с записями при помощи пластилина.

К повсеместной доступности: доверие и будущие направления

Для успешного внедрения NaviNote, доверие пользователей является первостепенным условием. Это означает, что постоянное повышение точности и надежности системы — не просто техническая задача, а ключевой фактор, определяющий ее полезность и востребованность. Исследования показывают, что даже незначительные ошибки в навигации могут существенно подорвать уверенность пользователя, особенно для людей с нарушениями зрения. Поэтому разработчики уделяют особое внимание алгоритмам обработки данных, совершенствуя их для минимизации погрешностей и обеспечения стабильной работы в различных условиях окружающей среды. Непрерывное тестирование и получение обратной связи от пользователей — неотъемлемая часть процесса улучшения, направленная на создание действительно надежного и интуитивно понятного помощника в ориентировании.

Особое значение для системы NaviNote имеет обеспечение навигации на “последних метрах” — способности предоставлять точные инструкции в сложных помещениях и на ограниченных пространствах. Исследования показывают, что именно этот этап представляет наибольшую сложность для людей с нарушениями зрения, поскольку требует детального понимания окружающего пространства и способности быстро адаптироваться к изменениям. NaviNote, благодаря использованию передовых алгоритмов компьютерного зрения и анализа данных, стремится обеспечить максимально точную и своевременную информацию о препятствиях и оптимальном маршруте, позволяя пользователям уверенно ориентироваться даже в самых сложных условиях, таких как переполненные коридоры, узкие проходы или помещения с динамически меняющейся обстановкой. Способность системы к точной локализации и предоставлению инструкций на “последних метрах” является ключевым фактором повышения самостоятельности и улучшения качества жизни людей с нарушениями зрения.

В дальнейшем планируется значительно расширить область аннотирования, включив в неё больше разнообразных пространств и объектов, что позволит системе NaviNote функционировать в еще более широком спектре сред. Особое внимание будет уделено совершенствованию координации между различными AI-агентами, обеспечивая слаженную и безошибочную работу в сложных ситуациях. Конечной целью является создание действительно повсеместно доступного решения для людей с нарушениями зрения, позволяющего им уверенно и независимо ориентироваться в любых условиях, стирая границы между доступностью и повседневной жизнью и открывая новые возможности для полноценного участия в обществе.

Анализ времени ответа NaviNote показал, что среднее время ответа составляет 10,8 секунды, медианное - 8,6 секунды, при этом большинство запросов обрабатывались менее чем за 15 секунд, а наблюдаемые различия между пользователями в основном связаны с нестабильным интернет-соединением.
Анализ времени ответа NaviNote показал, что среднее время ответа составляет 10,8 секунды, медианное — 8,6 секунды, при этом большинство запросов обрабатывались менее чем за 15 секунд, а наблюдаемые различия между пользователями в основном связаны с нестабильным интернет-соединением.

Представленная работа демонстрирует стремление к упрощению взаимодействия человека с окружающим пространством посредством технологии. Система NaviNote, используя возможности визуальных систем позиционирования и больших языковых моделей, позволяет создавать и использовать пространственные аннотации, что значительно расширяет возможности навигации для людей с нарушениями зрения. Это отражает убеждение в том, что истинная сложность заключается не в количестве функций, а в ясности их реализации. Как заметила Ада Лавлейс: «То, что мы можем знать, ограничено только тем, что мы можем делать». NaviNote — это пример практического воплощения этой мысли, позволяющий расширить границы познания мира для тех, кто в этом нуждается.

Что дальше?

Представленная работа, безусловно, демонстрирует потенциал объединения систем визуального позиционирования и больших языковых моделей для улучшения мобильности людей с нарушениями зрения. Однако, не стоит обольщаться кажущейся простотой решения. Существующие системы полагаются на предварительно созданные карты и детальную разметку окружения. Истинная независимость требует преодоления этой зависимости, способности системы к адаптации к незнакомым пространствам и динамически меняющимся условиям. Упрощение — не всегда прогресс; иногда это лишь маскировка более сложных проблем.

Настоящий вызов заключается не в создании очередного голосового интерфейса, а в разработке алгоритмов, способных к подлинному пониманию контекста. Необходимо выйти за рамки простой привязки голосовых команд к координатам. Следует сосредоточиться на интеграции с другими сенсорами, на изучении возможностей мультимодального восприятия и на разработке методов, позволяющих системе не просто ориентироваться, но и предвидеть, понимать намерения пользователя и адаптироваться к его потребностям. Усложнение неизбежно, но его следует направлять на достижение ясности, а не на создание новых слоев абстракции.

Перспективы, конечно, обнадеживают. Но следует помнить, что технология — лишь инструмент. Истинная ценность заключается не в ней самой, а в том, насколько эффективно она может служить человеку. Необходимо избегать соблазна увлечься техническими деталями, забывая о главной цели — расширении возможностей и улучшении качества жизни.


Оригинал статьи: https://arxiv.org/pdf/2603.08837.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-11 21:50