Виртуальные прогулки учат роботов ориентироваться

Автор: Денис Аветисян

Новый масштабный набор данных и методы неявной геометрии позволяют агентам искусственного интеллекта лучше понимать окружающую среду и успешно выполнять навигационные задачи.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Обучение с использованием неявной геометрии включает обработку как явной геометрии из симуляторов, так и неявной геометрии из видео RoomTour, наряду с инструкциями к задаче, где для данных из симуляторов используется конвейер, аналогичный оригинальному RoomTour3D, кодирующий RGB-наблюдения и включающий явные геометрические признаки, такие как расстояние и направление - например, «1.6 м, 88°» указывает пространственную связь, направляющую следующее действие агента, а для видео RoomTour кадры 1-2 формируют историю траектории, кадр 3 служит кандидатом для навигации, RGB-кадры кодируются, пространственные признаки извлекаются с помощью VGGT-кодировщика и проецируются в латентное пространство LLM для точного предсказания действий. — Обучение с использованием неявной геометрии включает обработку как явной геометрии из симуляторов, так и неявной геометрии из видео RoomTour, наряду с инструкциями к задаче, где для данных из симуляторов используется конвейер, аналогичный оригинальному RoomTour3D, кодирующий RGB-наблюдения и включающий явные геометрические признаки, такие как расстояние и направление — например, «1.6 м, 88°» указывает пространственную связь, направляющую следующее действие агента, а для видео RoomTour кадры 1-2 формируют историю траектории, кадр 3 служит кандидатом для навигации, RGB-кадры кодируются, пространственные признаки извлекаются с помощью VGGT-кодировщика и проецируются в латентное пространство LLM для точного предсказания действий.

Исследование представляет RoomTour3D — крупномасштабный датасет видео-обзоров помещений, который значительно повышает эффективность и надежность систем навигации, управляемых зрением и языком.

Ограниченность существующих наборов данных для обучения навигации, создаваемых в симулированных средах, препятствует развитию надежных агентов, способных ориентироваться в реальном мире. В работе ‘Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos’ представлен масштабный фреймворк RoomTour3D, использующий видео-экскурсии по помещениям из сети Интернет, и демонстрируется, как использование представлений неявной геометрии позволяет извлекать пространственные подсказки непосредственно из RGB-изображений, обходя необходимость в хрупких 3D-реконструкциях. Это позволило добиться передовых результатов в различных бенчмарках навигации (CVDN, SOON, R2R, REVERIE) и разработать устойчивых агентов, способных к навигации даже в незнакомых условиях. Сможем ли мы, используя большие объемы видеоданных из сети и неявные представления геометрии, создать действительно универсальные и масштабируемые решения для воплощенной навигации?

Понимание Задач Визуальной Навигации: Преодоление Ограничений

Современные системы навигации на основе зрения и языка (VLN) испытывают значительные трудности при обработке сложных, нечетких инструкций и работе в реалистичных окружениях. Неспособность адекватно интерпретировать многозначные фразы, учитывать контекст и предвидеть последствия действий приводит к ошибкам в планировании маршрута и, как следствие, к неуспешной навигации. В отличие от простых, пошаговых указаний, реальные инструкции часто содержат неявные предположения и требуют от системы не только распознавания объектов, но и понимания намерений пользователя и общей цели перемещения. Особенно остро эта проблема проявляется в динамичных и загроможденных пространствах, где визуальные помехи и неполная информация усугубляют сложность задачи, ограничивая применимость существующих систем в реальных сценариях использования.

Существующие эталоны в области навигации по визуальным инструкциям, такие как R2R, зачастую ограничиваются оценкой последовательности действий, упуская из виду способность агента понимать общую цель и ориентироваться на конкретные объекты в окружении. Вместо того чтобы оценивать, насколько хорошо система понимает инструкцию как единое целое и может адаптироваться к изменениям, акцент делается на точном воспроизведении шагов, предписанных инструкцией. Это приводит к ситуациям, когда агент может успешно выполнить последовательность действий, но при этом не осознавать, зачем он это делает, и не сможет скорректировать свой путь, если возникнет неожиданное препятствие или изменится контекст. В результате, существующие метрики не отражают истинную способность системы к пониманию и адаптации, что является ключевым для успешной навигации в реальных, сложных условиях.

Недостаточное понимание трехмерного пространства окружающей среды существенно ограничивает эффективность навигационных систем, особенно в условиях визуальной неопределенности. Исследования показывают, что современные алгоритмы часто терпят неудачи при интерпретации сложных сцен, где объекты частично скрыты или освещение создает искажения. Это приводит к ошибкам в определении местоположения и ориентации, а также к трудностям в планировании оптимального маршрута. Способность к построению целостной трехмерной модели окружения, включающей распознавание объектов, понимание их взаимосвязей и оценку расстояний, представляется критически важной для создания надежных и адаптивных навигационных систем, способных успешно функционировать в реальных, часто непредсказуемых условиях.

В отличие от NaviLLM, наша модель RoomTour3D демонстрирует более надежную навигацию в сложных сценариях, корректно определяя целевые точки и игнорируя отвлекающие факторы, такие как похожие входы или близко расположенные объекты, благодаря более точному следованию инструкциям, например, «идите прямо, пока не пройдете».

RoomTour3D: Комплексный Набор Данных для Визуальной Навигации

RoomTour3D представляет собой масштабный набор данных, состоящий из виртуальных туров по помещениям, автоматически сгенерированных из видеоматериалов. Набор данных включает в себя более 100 тысяч туров, охватывающих разнообразные интерьеры, такие как жилые комнаты, офисы и общественные пространства. Автоматизированный процесс создания позволяет обеспечить широкий охват различных планировок, освещения и мебели, что обеспечивает реалистичность и разнообразие среды для обучения и оценки агентов виртуальной навигации. Объем и разнообразие данных позволяют создавать более надежные и обобщающие модели по сравнению с наборами данных, созданными вручную или с использованием синтетических сред.

Набор данных RoomTour3D предоставляет уникальные возможности для разработки агентов Визуальной Навигации по Естественному Языку (VLN), способных понимать инструкции, сформулированные произвольным словарным запасом. В отличие от существующих наборов данных, ограничивающихся предопределенным списком команд и объектов, RoomTour3D позволяет обучать агентов интерпретировать более широкий спектр словесных указаний. Кроме того, структура данных поддерживает сложные сценарии навигации, включающие несколько шагов, условные инструкции и необходимость взаимодействия с различными объектами в окружающей среде. Это достигается за счет разнообразия сцен и сложности инструкций, представленных в наборе данных, что требует от агентов не только распознавания объектов, но и понимания контекста и намерений, заключенных в инструкциях на естественном языке.

В RoomTour3D для реконструкции трехмерных сцен используется методология Structure-from-Motion (SfM) в сочетании с программным обеспечением COLMAP. SfM позволяет восстановить структуру сцены и положение камеры на основе последовательности изображений, а COLMAP предоставляет инструменты для точного и автоматизированного выполнения этой задачи. Этот процесс позволяет создавать детальные 3D-модели помещений, необходимые для обучения агентов навигации и понимания пространственных отношений, обеспечивая основу для разработки систем, способных к взаимодействию с виртуальными средами и выполнению инструкций в трехмерном пространстве.

На основе видеообзора помещения создается полная 3D-модель с использованием COLMAP и данных, полученных с помощью BLIP-2, RAM, Grounding-DINO и Depth-Anything, после чего траектории движения человека используются для генерации текстовых описаний с помощью GPT-4, а ключевые точки траектории, включая повороты, выделяются для задач обучения навигации.

Неявная Геометрия и 3D Реконструкция: Основа для Понимания Пространства

Представления неявной геометрии обеспечивают эффективный способ моделирования трехмерных сцен непосредственно на основе данных изображений, обходя сложности, связанные с явным построением геометрии. В отличие от традиционных методов, требующих создания дискретных поверхностей или облаков точек, неявные представления кодируют геометрию как функцию, определяющую, находится ли данная точка в пространстве внутри или снаружи объекта. Это позволяет избежать проблем с разрешением, топологическими несоответствиями и необходимостью ручной обработки геометрии. В частности, неявное представление позволяет описывать сложные формы и топологии без явного определения границ, что упрощает процесс реконструкции и снижает вычислительные затраты. Функции уровня (level sets) и функции расстояния до поверхности (signed distance functions) являются распространенными методами реализации неявной геометрии.

Методы, такие как Neural Radiance Fields (NeRF) и Gaussian Splatting, используют неявные представления геометрии для создания высококачественных и фотореалистичных 3D-сцен. NeRF кодирует сцену как непрерывную функцию, отображающую каждую точку в пространстве в цвет и плотность, что позволяет рендерить вид из любой точки обзора. Gaussian Splatting, в свою очередь, представляет сцену как набор 3D-гауссиан, параметры которых оптимизируются для достижения фотореалистичного рендеринга. Оба подхода позволяют создавать детализированные 3D-модели из набора 2D-изображений, значительно превосходя по качеству традиционные методы 3D-реконструкции, особенно в отношении детализации текстур и сложных геометрических форм. Ключевым преимуществом является возможность рендеринга изображений с высоким разрешением и реалистичным освещением, что делает их применимыми в областях виртуальной и дополненной реальности, а также в создании цифрового контента.

Методы CUT3R и VGGT, использующие неявное геометрическое представление, позволяют осуществлять непрерывную онлайн-оценку трехмерной сцены в реальном времени. Эти подходы отличаются от традиционных методов, требующих предварительного построения модели, поскольку они динамически обновляют представление сцены на основе поступающих данных с сенсоров. Такая возможность особенно важна для задач навигации роботов и автономных транспортных средств, где требуется постоянное и точное понимание окружающей среды без задержек, связанных с предварительной обработкой данных. Непрерывная оценка позволяет учитывать изменения в сцене, такие как перемещение объектов или изменение освещения, обеспечивая надежную работу систем навигации в динамических условиях.

Для генерации управляемых инструкций система анализирует сцены, определяя объекты, их расстояние и местоположение, а затем использует модели BLIP-2 и GPT-4 для создания детализированных инструкций, соответствующих заданным требованиям и стилю.

NaviLLM: Интеграция Больших Языковых Моделей для Объектно-Ориентированной Навигации

NaviLLM — это современный агент навигации, основанный на языковой модели Vicuna-7B-v1.1. В его архитектуре реализован подход, использующий возможности больших языковых моделей (LLM) для понимания и выполнения навигационных задач. Использование Vicuna-7B-v1.1 позволяет NaviLLM эффективно обрабатывать инструкции на естественном языке и преобразовывать их в последовательность действий, необходимых для перемещения в трехмерном окружении. В отличие от традиционных методов навигации, NaviLLM использует возможности LLM для более гибкого и интуитивно понятного взаимодействия с пользователем и окружающей средой.

NaviLLM использует датасет RoomTour3D для эффективной интеграции понимания трехмерной сцены с возможностями обработки естественного языка. RoomTour3D предоставляет детальные трехмерные модели помещений и соответствующие текстовые описания, что позволяет модели соотносить визуальную информацию о пространстве с лингвистическими инструкциями. Данный подход обеспечивает возможность интерпретации инструкций на естественном языке в контексте трехмерной среды, что необходимо для успешной навигации и выполнения задач, связанных с поиском объектов или достижением определенных мест в виртуальном окружении. Сочетание данных RoomTour3D и языковой модели Vicuna-7B-v1.1 позволяет NaviLLM строить внутреннее представление о пространстве и использовать его для планирования оптимального маршрута следования.

В ходе тестирования на стандартных бенчмарках, NaviLLM продемонстрировал значительное улучшение результатов по сравнению с базовыми моделями. На бенчмарке SOON (Val Unseen) достигнута эффективность в 32.7%, что на 3.5% выше, чем у базовой модели. На REVERIE (Val Unseen) показатель составил 39.2%, что превосходит базовый уровень на 1.8%. На R2R (Val Unseen) NaviLLM показал результат в 66%, превышая базовый показатель на 4%. На бенчмарке CVDN (Val Unseen) достигнута эффективность в 7.38%, что на 1.05% превышает результат базовой модели.

Обучение NaviLLM осуществляется в два этапа: предварительное, использующее последовательность кадров для анализа изменений объектов вдоль траектории, и тонкая настройка, где модель предсказывает следующее действие на основе исторических наблюдений и инструкции, выбирая оптимальный вид из предложенных вариантов.

Перспективы Развития: К Воплощенному Искусственному Интеллекту и За Его Пределами

Сочетание RoomTour3D, неявной геометрии и NaviLLM представляет собой важный прорыв в создании воплощенного искусственного интеллекта, способного ориентироваться в сложных реальных условиях. Данный подход позволяет агентам не просто «видеть» окружающую среду, но и понимать ее трехмерную структуру, что критически важно для эффективной навигации. RoomTour3D предоставляет реалистичные данные для обучения, неявная геометрия позволяет создавать компактное представление пространства, а NaviLLM обеспечивает возможность интерпретировать инструкции на естественном языке и преобразовывать их в последовательность действий. В результате получается система, способная автономно исследовать помещения, находить заданные объекты и выполнять поставленные задачи, приближая нас к созданию интеллектуальных роботов, способных полноценно взаимодействовать с физическим миром.

Перспективные исследования направлены на объединение разработанного подхода с технологиями одновременной локализации и построения карты (SLAM) и оценкой глубины, такими как Depth-Anything и RAM. Интеграция SLAM позволит агенту не только ориентироваться в пространстве, но и создавать детальные карты окружающей среды, что значительно повысит точность навигации и позволит эффективно планировать маршруты в динамически меняющихся условиях. Использование моделей оценки глубины, в свою очередь, предоставит информацию о трехмерной структуре окружения, что особенно важно для понимания препятствий и выбора оптимальных путей. Такое сочетание технологий открывает возможности для создания интеллектуальных агентов, способных к автономной навигации и взаимодействию со сложными реальными пространствами, значительно превосходящих существующие решения по точности и надежности.

Исследование демонстрирует заметное повышение устойчивости разработанного метода к визуальным искажениям, характерным для реальных условий. В частности, при воздействии размытия в движении зафиксировано снижение производительности всего на 7%, в то время как у базовой модели этот показатель составил 11%. Полученные результаты свидетельствуют о создании прочной основы для разработки более надежных и адаптивных агентов визуальной навигации, способных к бесперебойному взаимодействию с физическим миром и эффективной работе в сложных визуальных условиях. Эта устойчивость к искажениям открывает перспективы для применения подобных агентов в широком спектре задач, от робототехники до дополненной реальности.

Обученный на RoomTour3D агент демонстрирует значительно более высокую устойчивость к распространенным визуальным искажениям (шум, размытие, сжатие, дефокус и изменение яркости) на наборе данных R2R Val Unseen, в отличие от NaviLLM, что указывает на его лучшую приспособленность к реальным условиям.

Исследование демонстрирует, что эффективная навигация в пространстве требует не просто восприятия визуальной информации, но и способности к построению внутренней геометрической модели окружения. RoomTour3D предоставляет агентам возможность обучаться на обширных данных реальных помещений, что позволяет им лучше понимать пространственные отношения и ориентироваться в сложных условиях. Как однажды заметил Эндрю Ын: «Мы должны стремиться к созданию систем, которые не просто реагируют на данные, но и способны к обобщению и адаптации». Именно к этому и ведёт подход, представленный в работе — создание агентов, способных к эффективной навигации благодаря глубокому пониманию неявной геометрии пространства.

Что дальше?

Представленный подход, безусловно, открывает новые горизонты в области навигации, основанной на зрении и языке. Однако, не стоит забывать, что реконструкция трёхмерного пространства из необработанных видеоданных — задача, по своей сути, неполная. Попытки «дорисовать» недостающие детали, опираясь на языковые инструкции, неизбежно вносят погрешности, отражающие не столько реальную геометрию, сколько интерпретацию этой геометрии моделью. Ирония заключается в том, что совершенствование моделей, способных «понимать» язык, может привести к увеличению разрыва между виртуальным пространством и реальностью.

Перспективы дальнейших исследований, вероятно, лежат в области более глубокого анализа неопределённости. Необходимо разработать методы, позволяющие агентам не только ориентироваться в пространстве, но и осознавать границы своей осведомлённости, оценивать надёжность реконструкции и, возможно, даже задавать уточняющие вопросы. Важно сместить акцент с создания идеальной трёхмерной модели на формирование адекватного представления о пространстве, достаточного для выполнения поставленной задачи.

В конечном итоге, истинный прогресс будет достигнут, когда агент сможет не просто следовать инструкциям, но и самостоятельно формулировать гипотезы о структуре окружающего мира, проверять их и адаптироваться к неожиданным ситуациям. Понимание системы — это исследование её закономерностей, а не просто её воссоздание.

Оригинал статьи: https://arxiv.org/pdf/2603.09259.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-12 02:57