Всевидящее зрение: Предсказание трехмерного пространства вокруг нас

Автор: Денис Аветисян


Новая разработка позволяет компьютерам понимать и воссоздавать трехмерную картину окружающего мира, используя всесторонние изображения и даже объекты, которые они никогда раньше не видели.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Предложенная модель O3N демонстрирует способность к предсказанию семантической занятости пространства с использованием лишь всенаправленного RGB-изображения и текстового запроса класса, достигая 16.54 mIoU и 21.16 NovelmIoU на бенчмарке QuadOcc и превосходя существующие решения благодаря возможности корректной классификации объектов, не представленных в обучающей выборке.
Предложенная модель O3N демонстрирует способность к предсказанию семантической занятости пространства с использованием лишь всенаправленного RGB-изображения и текстового запроса класса, достигая 16.54 mIoU и 21.16 NovelmIoU на бенчмарке QuadOcc и превосходя существующие решения благодаря возможности корректной классификации объектов, не представленных в обучающей выборке.

Представлена модель O3N, обеспечивающая точное предсказание трехмерной заполненности пространства на основе всенаправленных изображений с использованием инновационной архитектуры и методов выравнивания различных модальностей данных.

Построение полной и надежной трехмерной модели окружения остается сложной задачей для автономных агентов, особенно в условиях открытого мира. В данной работе представлена система O3N: Omnidirectional Open-Vocabulary Occupancy Prediction, новый подход к предсказанию заполненности пространства на основе всенаправленного зрения. O3N использует инновационную архитектуру, включающую спиральное представление пространства и выравнивание различных модальностей данных для точного моделирования геометрии и семантики окружения. Сможет ли данная технология стать основой для создания универсальных 3D-моделей мира и обеспечить безопасную навигацию автономных систем в сложных условиях?


Задачи всестороннего понимания сцены: вечная борьба с непредсказуемостью

Традиционные методы предсказания трехмерной занятости пространства сталкиваются со значительными трудностями при работе со сложными реальными окружениями, особенно когда речь идет о распознавании новых, ранее не встречавшихся категорий объектов. Существующие алгоритмы часто полагаются на упрощенные модели мира, что приводит к неточностям при интерпретации сложных сцен. Проблема усугубляется тем, что обучение систем на ограниченном наборе объектов не позволяет им адекватно реагировать на новые, незнакомые предметы, что критически важно для надежной работы роботов и автономных систем в непредсказуемых условиях. В результате, точность предсказания занятости пространства снижается, что может привести к ошибкам в навигации и взаимодействии с окружающей средой.

Существующие методы, использующие проекцию 2D-изображений в трехмерное пространство, часто демонстрируют недостаточную точность для надежного всестороннего восприятия окружающей среды. Проблема заключается в потере информации при переходе от двухмерного представления к трехмерной модели, особенно в сложных и динамичных сценах. Восстановление полной геометрии и текстуры объектов из плоских изображений оказывается сложной задачей, приводя к неточностям в определении границ, размеров и взаимного расположения объектов. Это, в свою очередь, негативно сказывается на способности системы адекватно интерпретировать окружающую обстановку и принимать обоснованные решения, требующие точного понимания трехмерной структуры мира.

Для успешной навигации в динамичных окружениях недостаточно простого “видения” — системы должны обладать способностью к семантическому пониманию окружающей среды. Это означает, что робот или автономный агент должен не только распознавать объекты, но и интерпретировать их значение и взаимосвязи, а также прогнозировать их возможное поведение. Например, понимание того, что движущийся объект является пешеходом, а не статичным препятствием, критически важно для безопасного и эффективного перемещения. Такое семантическое осознание требует интеграции визуальной информации с знаниями о мире и способностью к рассуждениям, что открывает новые горизонты в разработке интеллектуальных систем, способных к адаптации и взаимодействию со сложными, постоянно меняющимися окружениями.

Прогнозирование заполненности пространства на основе всестороннего визуального восприятия позволяет определять трехмерную структуру окружения, при этом удаленные объекты проецируются на меньшую площадь изображения из-за перспективных искажений и особенностей сферической проекции, что приводит к увеличению плотности проекций по мере удаления от точки наблюдения.
Прогнозирование заполненности пространства на основе всестороннего визуального восприятия позволяет определять трехмерную структуру окружения, при этом удаленные объекты проецируются на меньшую площадь изображения из-за перспективных искажений и особенностей сферической проекции, что приводит к увеличению плотности проекций по мере удаления от точки наблюдения.

O3N: Новый взгляд на всенаправленное восприятие

O3N представляет собой сквозной, исключительно визуальный фреймворк для предсказания заполненности пространства в панорамном виде (omnidirectional occupancy prediction). В отличие от предыдущих подходов, которые часто опираются на комбинацию визуальных и других типов данных, O3N функционирует исключительно на основе визуальной информации. Это позволяет упростить архитектуру системы и снизить зависимость от дополнительных сенсоров. Разработанный для решения проблем, связанных с ограниченной обобщающей способностью и необходимостью предварительного обучения на конкретных категориях объектов, O3N обеспечивает предсказание заполненности пространства без явного определения категорий объектов, что расширяет возможности его применения в различных сценариях.

В основе архитектуры O3N лежит метод проекции признаков по линии видимости (Features Line of Sight Projection, FLoSP), обеспечивающий эффективное преобразование визуальных данных в трехмерное представление окружения. FLoSP проецирует признаки, извлеченные из изображений, вдоль лучей, исходящих из центра камеры, в общее воксельное пространство. Этот процесс позволяет агрегировать информацию из нескольких ракурсов и создавать плотную карту занятости, учитывающую геометрию сцены. В отличие от традиционных методов, FLoSP оптимизирован для работы с панорамными изображениями и позволяет эффективно обрабатывать большие объемы визуальных данных, необходимые для построения полных трехмерных моделей окружения.

В основе способности O3N распознавать ранее неизвестные категории объектов лежит использование модели CLIP (Contrastive Language-Image Pre-training). CLIP позволяет извлекать векторные представления (эмбеддинги) из текстовых описаний объектов, которые затем сравниваются с визуальными признаками, полученными из изображений. Это позволяет системе эффективно сопоставлять визуальные данные с текстовыми метками, даже для объектов, которые не встречались в процессе обучения. Таким образом, O3N не требует предварительного обучения для каждой новой категории объектов, обеспечивая высокую степень обобщающей способности и адаптивности к новым сценариям.

Архитектура O3N представляет собой сквозную систему, принимающую на вход всеобъемлющие изображения и использующую модуль Polar-spiral Mamba для захвата геометрических и семантических зависимостей, а также модули агрегации стоимости заполняемости и выравнивания модальностей для обеспечения согласованного семантического рассуждения в 3D-пространстве посредством объединения пиксельных, воксельных и текстовых данных.
Архитектура O3N представляет собой сквозную систему, принимающую на вход всеобъемлющие изображения и использующую модуль Polar-spiral Mamba для захвата геометрических и семантических зависимостей, а также модули агрегации стоимости заполняемости и выравнивания модальностей для обеспечения согласованного семантического рассуждения в 3D-пространстве посредством объединения пиксельных, воксельных и текстовых данных.

Взгляд под капот: модули для богатого представления сцены

Модуль Polar-Spiral Mamba (PSM) в составе O3N предназначен для захвата более детальной геометрической и семантической информации в цилиндрическом воксельном представлении сцены. PSM использует архитектуру Mamba, позволяющую эффективно моделировать зависимости в данных, что особенно важно для обработки трехмерных сцен. В отличие от традиционных сверточных сетей, Mamba обеспечивает линейную сложность по длине последовательности, что позволяет обрабатывать большие объемы воксельных данных с высокой скоростью и точностью. PSM анализирует воксели в цилиндрической системе координат, что упрощает моделирование геометрии и позволяет более эффективно извлекать признаки, необходимые для понимания структуры сцены и идентификации объектов.

Цилиндрическое воксельное представление, лежащее в основе модуля Polar-Spiral Mamba (PSM), обеспечивает более эффективное и точное понимание сцены за счет организации данных в цилиндрическую систему координат. В отличие от традиционных кубических вокселей, цилиндрическое представление лучше соответствует структуре большинства реальных сред, что позволяет уменьшить вычислительную сложность и повысить точность определения геометрии. Данный подход особенно эффективен при обработке данных, полученных от LiDAR и других 3D-сенсоров, поскольку позволяет более компактно представлять информацию о расстоянии до объектов и их ориентации в пространстве. Эффективность достигается за счет уменьшения количества вокселей, необходимых для представления сцены с заданным разрешением, и оптимизации операций обработки данных в цилиндрической системе координат.

Модуль Агрегации Стоимости Заполнения (OCA) в O3N предназначен для повышения устойчивости и обобщающей способности системы за счет использования текстовых признаков для уточнения прогнозов заполнения пространства. OCA обрабатывает текстовые описания сцены, извлекая релевантную информацию, которая затем используется для корректировки вероятностей заполнения вокселей. Это позволяет системе более эффективно справляться с неполными или зашумленными данными, а также адаптироваться к новым, ранее не встречавшимся сценариям, улучшая точность реконструкции и понимания сцены. Фактически, OCA выполняет функцию контекстного фильтра, уточняя предсказания на основе семантической информации, содержащейся в текстовом описании.

Модуль Polar-Spiral Mamba, использующий двухканальную архитектуру, эффективно моделирует пространственную структуру всенаправленных изображений за счет спирального сканирования и последовательной агрегации воксельных признаков между полярными и декартовыми координатами, обеспечивая сохранение геометрической и семантической целостности.
Модуль Polar-Spiral Mamba, использующий двухканальную архитектуру, эффективно моделирует пространственную структуру всенаправленных изображений за счет спирального сканирования и последовательной агрегации воксельных признаков между полярными и декартовыми координатами, обеспечивая сохранение геометрической и семантической целостности.

Валидация и обобщение в различных окружениях: подтверждение эффективности

Система O3N прошла всестороннее тестирование на двух разнородных наборах данных: Human360Occ, представляющем собой симулированные сцены взаимодействия человека и транспортного средства, созданные в среде CARLA, и QuadOcc — наборе реальных изображений, запечатлевших сцены с участием четвероногих роботов. Такой подход к валидации позволил оценить устойчивость и обобщающую способность O3N в различных условиях, демонстрируя её способность эффективно прогнозировать заполненность пространства как в искусственно созданных, так и в реальных окружениях. Комбинация симуляционных и реальных данных обеспечивает надежную оценку эффективности системы в широком спектре сценариев применения.

Исследования показали, что разработанная система O3N демонстрирует высокую точность предсказания занятости пространства в сложных и динамичных условиях. Набор данных QuadOcc, представляющий реальные сцены с участием четвероногих роботов, позволил достичь передового результата в 16.54 по метрике mean Intersection over Union (mIoU). Данный показатель свидетельствует о способности системы эффективно различать занятые и свободные области, что критически важно для автономной навигации и взаимодействия роботов с окружающей средой. Достигнутая точность подтверждает потенциал O3N для применения в широком спектре задач, требующих надежного восприятия окружающей обстановки.

Результаты тестирования показали, что O3N демонстрирует превосходную точность предсказания заполненности пространства в различных сценариях. В частности, на наборе данных QuadOcc, посвященном роботам на четырех ногах, O3N достиг нового значения средней Intersection over Union (mIoU) в 21.16, что на 2.57% превосходит показатели существующей системы OVO. Кроме того, на наборе данных Human360Occ, моделирующем взаимодействие человека и транспортного средства, O3N достиг общего значения mIoU в 24.25, улучшив результат OVO на 0.7%. Эти результаты подтверждают эффективность и обобщающую способность O3N в сложных и динамичных условиях, что делает его перспективным решением для широкого спектра приложений.

Модель O3N демонстрирует более эффективное сохранение глобальной геометрии и семантики, значительно превосходя базовый уровень в задачах восприятия и обобщения на неизвестные семантические данные.
Модель O3N демонстрирует более эффективное сохранение глобальной геометрии и семантики, значительно превосходя базовый уровень в задачах восприятия и обобщения на неизвестные семантические данные.

Очередная задача 3D-реконструкции, представленная в этой работе, не вызывает особого удивления. Авторы предлагают O3N — систему предсказания заполненности пространства на основе всенаправленных изображений. По сути, они пытаются заставить машину «видеть» мир, как это делали старые добрые стереопары, только теперь с использованием более модных нейронных сетей и, конечно же, с акцентом на «открытый словарь» объектов. Как говорил Джеффри Хинтон: «Я думаю, что нам нужно перестать обучать нейронные сети и начать учить их думать». В данном случае, думать — это не просто распознавать объекты, но и понимать их взаимосвязь в пространстве, что, по правде говоря, является лишь немного более сложной версией старых алгоритмов SLAM. Уверен, через пару лет кто-нибудь найдёт способ сломать и эту «инновацию», но пока — пусть себе работает. Всё новое — это просто старое с худшей документацией.

Что дальше?

Представленная работа, безусловно, демонстрирует определённый прогресс в предсказании трёхмерной занятости пространства на основе всенаправленных изображений. Однако, стоит помнить, что каждая элегантная архитектура рано или поздно превратится в сложный клубок коммитов, написанных в три часа ночи. Обещания «открытой лексики» звучат заманчиво, но, как показывает опыт, скорее всего, это просто ещё один способ продать старые идеи под новым брендом — сейчас это назовут AI и получат инвестиции. Остаётся нерешённой проблема обобщения — как быстро система начнёт спотыкаться на объектах, которые разработчики просто не предусмотрели? Или, что ещё более вероятно, как быстро она начнёт генерировать правдоподобные, но абсолютно нереальные объекты?

Вероятно, следующие шаги лежат в области повышения робастности к шуму и неполным данным. В реальном мире изображения редко бывают идеальными, а датчики — безотказными. К тому же, удивительно, как часто забывают о банальной калибровке оборудования. Вместо того, чтобы гоняться за всё более сложными моделями, возможно, стоит сосредоточиться на создании более надёжных и понятных алгоритмов обработки данных. Ведь, в конце концов, даже самая гениальная нейронная сеть — это просто набор матричных операций, которые когда-то были простым bash-скриптом.

И, разумеется, документация. Опять же, документация. Начинает казаться, что её пишут те, кто никогда не видел реального кода. Впрочем, это уже классика жанра.


Оригинал статьи: https://arxiv.org/pdf/2603.12144.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-14 23:47