Зрение сквозь камеры: Новый подход к 3D-детекции объектов

Автор: Денис Аветисян


Исследователи предлагают инновационный метод повышения точности и надежности 3D-детекции объектов на мульти-камерных системах, преодолевая ограничения, связанные с изменением конфигурации камер.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Система CoIn3D обеспечивает эффективный перенос моделей из исходной конфигурации A на ранее не встречавшиеся целевые конфигурации B, C и т.д., учитывая вариации внутренних, внешних параметров и компоновки сенсоров, и применима к трем основным парадигмам MC3D, таким как BEVDepth[22], BEVFormer[23] и PETR[25].
Система CoIn3D обеспечивает эффективный перенос моделей из исходной конфигурации A на ранее не встречавшиеся целевые конфигурации B, C и т.д., учитывая вариации внутренних, внешних параметров и компоновки сенсоров, и применима к трем основным парадигмам MC3D, таким как BEVDepth[22], BEVFormer[23] и PETR[25].

В статье представлен фреймворк CoIn3D, использующий пространственно-зависимую модуляцию признаков и аугментацию данных на основе 3D Gaussian Splatting для обеспечения обобщения при различных конфигурациях камер и кросс-датасетной обобщающей способности.

Несмотря на прогресс в области многокамерного 3D-обнаружения объектов, существующие модели испытывают трудности с обобщением на новые конфигурации камер. В работе ‘CoIn3D: Revisiting Configuration-Invariant Multi-Camera 3D Object Detection’ предложен новый подход, основанный на выявлении и учете расхождений в пространственных априорных знаниях между исходными и целевыми конфигурациями камер. Ключевым элементом является разработанный фреймворк CoIn3D, использующий пространственно-зависимую модуляцию признаков и аугментацию данных для повышения переносимости модели. Сможет ли CoIn3D стать основой для создания универсальных систем 3D-обнаружения объектов, не зависящих от конкретной конфигурации сенсоров?


Пространственные нестыковки: вызов для 3D-обнаружения

Многокамерное 3D-обнаружение объектов, несмотря на свой потенциал в обеспечении надежного восприятия окружающей среды, сталкивается с серьезными трудностями при изменении конфигурации камер. Системы, обученные на данных, полученных с определенной геометрией камер, часто демонстрируют снижение точности при использовании в новых условиях, где расположение, фокусное расстояние и поле зрения камер отличаются. Эта зависимость от конкретной аппаратной конфигурации ограничивает возможности широкого применения технологии в реальных сценариях, где разнообразие используемого оборудования неизбежно. Для решения этой проблемы необходимы методы, способные адаптироваться к различным геометрическим параметрам камер и обеспечивать стабильную производительность независимо от их расположения и характеристик.

Различия в параметрах камер, таких как внешняя ориентация (Extrinsics), фокусное расстояние, угол обзора и расположение в массиве, приводят к возникновению так называемых «пространственных расхождений» (Spatial\,Prior\,Discrepancies). Данные расхождения представляют собой несоответствия в представлениях о трехмерном пространстве, формируемых разными системами камер. Это существенно затрудняет обобщение алгоритмов обнаружения объектов на различных наборах данных, таких как Waymo, Nuscenes и Lyft, поскольку модель, обученная на данных с одной конфигурацией камер, может демонстрировать значительно сниженную точность при работе с данными, полученными с другой. Суть проблемы заключается в том, что алгоритмы, не учитывающие эти расхождения, некорректно интерпретируют пространственные отношения между объектами, что приводит к ошибкам в их обнаружении и классификации.

Существующие методы обнаружения объектов в трехмерном пространстве, использующие данные с нескольких камер, демонстрируют снижение точности при переходе к новым, незнакомым условиям. Проблема заключается в том, что алгоритмы, обученные на одном наборе данных, полученном с определенной конфигурацией камер, испытывают трудности при обработке данных, полученных с другой конфигурации. Различия в таких параметрах, как внешняя ориентация камер, фокусное расстояние и угол обзора, приводят к несоответствиям в пространственных представлениях, что существенно снижает способность системы обобщать полученные знания. В результате, даже незначительные изменения в расположении или характеристиках камер могут привести к заметному ухудшению производительности алгоритма в новых условиях, ограничивая возможности применения подобных систем в реальных сценариях.

Предложенный фреймворк CoIn3D обеспечивает обобщение MC3D для различных многокамерных конфигураций посредством аугментации данных с учетом камеры, модуляции признаков с учетом пространственной осведомленности и проекции априорных карт, что позволяет эффективно интегрировать пространственные признаки в различные парадигмы MC3D.
Предложенный фреймворк CoIn3D обеспечивает обобщение MC3D для различных многокамерных конфигураций посредством аугментации данных с учетом камеры, модуляции признаков с учетом пространственной осведомленности и проекции априорных карт, что позволяет эффективно интегрировать пространственные признаки в различные парадигмы MC3D.

CoIn3D: Рационализация пространственного восприятия

CoIn3D — это новая структура, разработанная для улучшения обобщающей способности систем 3D-обнаружения объектов, работающих с данными от нескольких камер. Она предназначена для повышения надежности и точности обнаружения объектов в различных конфигурациях камер, отличающихся расположением, ориентацией и внутренними параметрами. Ключевая задача, решаемая CoIn3D, — снижение зависимости производительности системы от конкретной геометрии установки камер, что позволяет использовать одну и ту же модель обнаружения в различных сценариях без переобучения или тонкой настройки. Достигается это за счет явного моделирования и учета пространственных взаимосвязей между камерами и обнаруженными объектами, что позволяет системе адаптироваться к новым, ранее не встречавшимся конфигурациям камер.

В основе CoIn3D лежит механизм пространственно-зависимой модуляции признаков (Spatial-Aware Feature Modulation), который позволяет напрямую включать априорные пространственные данные в векторные представления признаков. Этот подход позволяет учитывать геометрические характеристики сцены и конфигурацию камер при обработке данных. Вместо использования стандартных методов, которые рассматривают признаки изолированно, CoIn3D модифицирует их, учитывая пространственное положение и ориентацию объектов, что повышает устойчивость и точность обнаружения объектов на различных настройках камер. Модуляция признаков осуществляется посредством карт, кодирующих информацию о фокусном расстоянии, глубине и градиенте плоскости, а также о направлениях лучей, что позволяет нормализовать и выровнять признаки, полученные с разных камер.

Модуляция в CoIn3D использует карты, такие как карта обратной фокусной длины (Inverse Focal Map), карта глубины плоскости земли (Ground Depth Map), карта градиента плоскости земли (Ground Gradient Map) и карта Плюккера (Plücker Raymap), для нормализации и выравнивания признаков, полученных с разных камер. Карта обратной фокусной длины корректирует признаки на основе параметров камеры, а карты глубины и градиента плоскости земли учитывают геометрию сцены для согласования признаков. Карта Плюккера, представляющая лучи в трехмерном пространстве, обеспечивает точное выравнивание признаков, учитывая пространственную конфигурацию объектов и камер. Совместное использование этих карт позволяет CoIn3D эффективно уменьшать расхождения в признаках, вызванные различиями в пространственных конфигурациях камер.

Фреймворк CoIn3D снижает влияние расхождений в пространственных априорных знаниях (Spatial Prior Discrepancies) за счет явного моделирования пространственных взаимосвязей между камерами. Эти расхождения возникают из-за различий в калибровке камер, их расположении и ориентации, что приводит к неточностям в оценке глубины и местоположении объектов в трехмерном пространстве. CoIn3D использует карты, такие как Inverse\ Focal\ Map, Ground\ Depth\ Map, Ground\ Gradient\ Map и Plücker\ Raymap, для нормализации и выравнивания признаков, извлеченных из разных камер, что позволяет уменьшить влияние этих расхождений и повысить точность обнаружения объектов в трехмерном пространстве.

Различные конфигурации камер приводят к пространственным несовпадениям, проявляющимся в неоднозначности фокуса, вариациях глубины в зависимости от высоты камеры и различиях в структуре сцены, распределении глубины и отображении в Plücker raymap при использовании кругового обзора.
Различные конфигурации камер приводят к пространственным несовпадениям, проявляющимся в неоднозначности фокуса, вариациях глубины в зависимости от высоты камеры и различиях в структуре сцены, распределении глубины и отображении в Plücker raymap при использовании кругового обзора.

Усиление устойчивости посредством аугментации данных

Для повышения обобщающей способности модели CoIn3D использует метод камерно-зависимой аугментации данных. Этот подход позволяет генерировать синтетические изображения, используя различные конфигурации камер и углы обзора. В отличие от стандартных методов аугментации, которые применяются независимо от положения камеры, камерно-зависимая аугментация учитывает пространственные преобразования, вызванные изменением точки съемки, что позволяет модели более эффективно адаптироваться к новым, ранее не встречавшимся условиям и перспективам.

Для генерации синтетических видов с различных конфигураций камер в CoIn3D используется метод 3D Gaussian Splatting. Эта техника позволяет создавать реалистичные изображения, моделируя сцену как набор 3D гауссовых распределений. Изменяя положение и ориентацию виртуальной камеры относительно этих распределений, создаются новые виды, которые затем используются для расширения обучающей выборки. Процесс не требует рендеринга традиционными методами, что обеспечивает высокую скорость генерации синтетических данных и позволяет создавать большое количество разнообразных видов для обучения модели.

Обучение модели с использованием разнообразных пространственных вариаций повышает её устойчивость к новым, ранее не встречавшимся окружениям. Представление модели широкого спектра углов обзора и позиций камеры в процессе обучения позволяет ей лучше обобщать данные и адаптироваться к изменениям в геометрии сцены и расположении объектов. Это достигается за счет увеличения разнообразия обучающей выборки и снижения зависимости от конкретных пространственных конфигураций, присутствующих в исходных данных. В результате модель демонстрирует повышенную точность и надежность в условиях, отличающихся от тех, в которых она была обучена.

Проблема расхождений в пространственных априорных знаниях (Spatial Prior Discrepancies) возникает из-за разницы между представлениями о пространстве, полученными моделью во время обучения, и реальными пространственными характеристиками новых, ранее не встречавшихся окружений. Данный подход, использующий аугментацию данных с учетом конфигурации камеры, непосредственно решает эту проблему, генерируя синтетические виды, имитирующие разнообразные пространственные конфигурации. За счет увеличения вариативности данных, используемых для обучения, модель приобретает устойчивость к изменениям в пространственном расположении объектов и улучшает обобщающую способность, эффективно снижая влияние несоответствий в априорных знаниях.

Предложенный метод CoIn3D значительно улучшает точность предсказания ограничивающих рамок (зеленые рамки) в сравнении с прямым использованием BEVDepth (верхний ряд) для 3D-облаков точек с текстурой, приближаясь к фактическим ограничивающим рамкам (красные рамки).
Предложенный метод CoIn3D значительно улучшает точность предсказания ограничивающих рамок (зеленые рамки) в сравнении с прямым использованием BEVDepth (верхний ряд) для 3D-облаков точек с текстурой, приближаясь к фактическим ограничивающим рамкам (красные рамки).

Широкая применимость и выигрыш в производительности CoIn3D

Разработанная система CoIn3D демонстрирует высокую совместимость с существующими архитектурами для обнаружения трехмерных объектов, включая такие передовые решения, как BEVDepth, BEVFormer и PETR. Это позволяет легко интегрировать CoIn3D в уже существующие конвейеры обработки данных, не требуя значительной переработки или модификации базовой инфраструктуры. Благодаря такому подходу, исследователи и разработчики могут оперативно оценить преимущества CoIn3D в контексте своих собственных проектов и систем, расширяя возможности существующих алгоритмов обнаружения объектов и повышая их точность и надежность. Универсальность интеграции делает CoIn3D ценным инструментом для широкого спектра приложений, от автономного вождения до робототехники.

Экспериментальные исследования продемонстрировали значительное повышение производительности системы в стандартных бенчмарках. В частности, зафиксировано улучшение метрики NDS* до 0.513 в сложных условиях кросс-конфигураций, что свидетельствует о высокой эффективности подхода. Данный результат указывает на способность системы успешно адаптироваться к различным сценариям и обеспечивать надежное 3D-восприятие даже при значительных изменениях в конфигурации данных. Подобное повышение производительности открывает новые возможности для применения системы в широком спектре задач, включая автономное вождение и робототехнику, где требуется высокая точность и надежность восприятия окружающей среды.

Экспериментальные результаты демонстрируют значительное повышение точности обнаружения трехмерных объектов благодаря применению CoIn3D. В частности, зафиксировано увеличение показателя NDS на 0.481 при переносе модели с датасета Nuscenes на Lyft, и на 0.452 — при переносе с Waymo на Nuscenes. Более того, CoIn3D превосходит предыдущее самое современное решение (UDGA-BEV) на 0.054 пункта NDS при адаптации с Nuscenes на Waymo, что подтверждает его эффективность и способность к обобщению в различных сценариях и с разными наборами данных.

Универсальность CoIn3D открывает широкие возможности для применения в различных областях, включая автономное вождение и робототехнику. Благодаря своей способности адаптироваться к различным конфигурациям данных и снижению влияния пространственных вариаций, система позволяет создавать более надежные и обобщенные системы 3D-восприятия. Это особенно важно для робототехнических приложений, где требуется точное определение местоположения и ориентации объектов в динамичной среде. В контексте автономного вождения, CoIn3D способствует повышению безопасности и эффективности, позволяя транспортным средствам лучше ориентироваться в сложных дорожных условиях и взаимодействовать с другими участниками движения. Возможность интеграции с существующими архитектурами 3D-обнаружения делает CoIn3D доступным и эффективным решением для широкого круга разработчиков и исследователей, стремящихся к созданию интеллектуальных систем восприятия.

Система CoIn3D направлена на повышение надежности и обобщающей способности систем 3D-восприятия за счет смягчения влияния пространственных вариаций в данных. Традиционные методы часто сталкиваются с трудностями при переходе от одного набора данных к другому из-за различий в геометрии сцен и распределении объектов. CoIn3D решает эту проблему, эффективно нормализуя представления данных, что позволяет модели лучше адаптироваться к новым, ранее не встречавшимся условиям. Это приводит к более стабильной работе системы в различных средах и улучшает ее способность к обобщению, что особенно важно для приложений, требующих высокой надежности, таких как автономное вождение и робототехника. Уменьшение зависимости от конкретных пространственных характеристик данных открывает путь к созданию более универсальных и устойчивых систем 3D-восприятия.

Исследование закономерностей в пространственном расположении камер и объектов представляет собой ключевую задачу в области многокамерного 3D-обнаружения. Как отмечает Фэй-Фэй Ли: «Искусственный интеллект — это не просто создание машин, которые могут что-то делать; это создание машин, которые могут учиться и адаптироваться». Представленная работа акцентирует внимание на устранении расхождений в пространственных априорных знаниях, что напрямую влияет на обобщающую способность моделей. Использование 3D Gaussian splatting для синтеза новых видов и модуляции признаков позволяет модели более эффективно адаптироваться к различным конфигурациям камер, что является важным шагом к созданию действительно интеллектуальных систем, способных к обучению и адаптации в динамичной среде.

Куда Далее?

Представленная работа, безусловно, вносит вклад в понимание обобщающей способности моделей многокамерного 3D-обнаружения объектов. Однако, стоит признать, что решение проблемы расхождений в пространственных априорных знаниях — это лишь один из аспектов общей сложности. Неизбежно возникает вопрос: насколько эффективно предложенный подход масштабируется при значительном увеличении числа камер и разнообразии сцен? Очевидно, что простое увеличение объема данных, сгенерированных с помощью 3D Gaussian Splatting, не является панацеей, а лишь временным решением.

Будущие исследования, вероятно, должны быть направлены на разработку более принципиально новых методов, которые не просто адаптируются к новым конфигурациям камер, но и активно используют информацию о геометрии сцены и взаимосвязях между объектами. Особый интерес представляет изучение возможности интеграции моделей, основанных на физическом моделировании, для повышения робастности и обобщающей способности.

В конечном счете, истинный прогресс заключается не в достижении впечатляющих метрик качества на стандартных наборах данных, а в создании систем, способных надежно и эффективно функционировать в реальных, непредсказуемых условиях. И, как это часто бывает, самые интересные открытия ждут тех, кто готов поставить под сомнение устоявшиеся представления и искать новые, неожиданные пути.


Оригинал статьи: https://arxiv.org/pdf/2603.05042.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-08 13:00