Восстановление геометрии: новый взгляд на восприятие окружения в автопилоте

Автор: Денис Аветисян


Исследователи предлагают инновационный подход к построению моделей окружения для беспилотных автомобилей, основанный на точном восстановлении трехмерной геометрии сцены.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Обучение происходит в три этапа: сначала, используя метод 3D Gaussian Splatting, формируется генератор гауссовских распределений для реконструкции трехмерной сцены по изображениям с разных точек обзора; затем, зафиксировав этот генератор, геометрия и связанные с ней признаки проецируются на плоскость BEV для обучения энкодера и сегментационной головки; и, наконец, все компоненты - генератор, энкодер и головка - совместно дообучаются для достижения оптимального восприятия BEV за счет гармонизации геометрии, семантики и специфических задач, что позволяет получить согласованное представление сцены.
Обучение происходит в три этапа: сначала, используя метод 3D Gaussian Splatting, формируется генератор гауссовских распределений для реконструкции трехмерной сцены по изображениям с разных точек обзора; затем, зафиксировав этот генератор, геометрия и связанные с ней признаки проецируются на плоскость BEV для обучения энкодера и сегментационной головки; и, наконец, все компоненты — генератор, энкодер и головка — совместно дообучаются для достижения оптимального восприятия BEV за счет гармонизации геометрии, семантики и специфических задач, что позволяет получить согласованное представление сцены.

Представленная работа Splat2BEV использует Gaussian Splatting для создания выровненных по геометрии представлений в формате Bird’s-Eye-View, улучшая восприятие окружения и точность автономного вождения.

Несмотря на значительные успехи в области восприятия окружения для автономного вождения, существующие подходы часто упускают из виду важность явного 3D-понимания сцены. В работе «Reconstruction Matters: Learning Geometry-Aligned BEV Representation through 3D Gaussian Splatting» предлагается новый фреймворк Splat2BEV, использующий Gaussian Splatting для реконструкции 3D-сцены и получения геометрически согласованных представлений для задач восприятия сверху (Bird’s-Eye-View). Полученные результаты на наборах данных nuScenes и argoverse демонстрируют, что явное 3D-реконструирование позволяет значительно улучшить производительность в задачах семантической сегментации и обнаружения 3D-объектов. Способно ли такое сочетание реконструкции и BEV-представлений стать основой для более надежных и интерпретируемых систем автономного вождения?


Преодолевая Двумерность: Ограничения Традиционного Восприятия BEV

Традиционные методы построения видов сверху (BEV), такие как неявные сквозные подходы, зачастую оперируют без явного понимания трехмерной структуры окружения, что ограничивает их возможности в сложных сценариях. Вместо реконструкции полной трехмерной модели сцены, эти системы фокусируются преимущественно на извлечении признаков для решения конкретных задач. Отсутствие полноценного трехмерного восприятия приводит к трудностям при обработке ситуаций с перекрывающимися объектами или при оценке расстояний, поскольку система не способна точно определить пространственное расположение объектов относительно друг друга и камеры. В результате, производительность таких методов снижается в динамичных и перегруженных окружениях, где требуется надежное и точное понимание геометрии сцены.

Традиционные методы восприятия окружения, основанные на построении изображения «вид сверху» (BEV), зачастую сосредотачиваются исключительно на извлечении признаков для выполнения конкретных задач, не предпринимая попыток построить полноценную трехмерную модель окружения. Этот подход, хотя и эффективен в определенных сценариях, существенно ограничивает надежность и обобщающую способность системы. Отсутствие глубокого понимания трехмерной геометрии сцены приводит к трудностям при обработке сложных ситуаций, таких как перекрывающиеся объекты или неполная видимость, и снижает способность системы адаптироваться к новым, незнакомым условиям. В результате, системы, полагающиеся лишь на двумерные признаки, демонстрируют снижение производительности в условиях, отличающихся от тех, на которых они были обучены, что препятствует их применению в реальных, динамичных средах.

Существующие методы, основанные на непроецировании 2D-изображений и 3D-проекциях, сталкиваются со значительными трудностями при точном воссоздании геометрии сцены и обработке перекрытий объектов. Непроецирование, хотя и позволяет использовать информацию из 2D-изображений, часто приводит к искажениям при переносе данных в трехмерное пространство, особенно в сложных условиях. Методы, использующие 3D-проекции, зависят от точности калибровки датчиков и могут давать неверные результаты при частичной видимости объектов или наличии шумов. Проблема усугубляется в динамических сценах, где объекты постоянно меняют свое положение, что требует от систем восприятия высокой скорости и точности реконструкции, а также эффективной обработки окклюзий для поддержания целостной картины окружающего мира.

В отличие от традиционных подходов, Splat2BEV сначала реконструирует сцену с помощью 3D Gaussian Splatting, а затем проецирует её в вид сверху (Bird’s-Eye-View), получая выровненные по геометрии представления, что значительно повышает производительность в задачах последующей обработки.
В отличие от традиционных подходов, Splat2BEV сначала реконструирует сцену с помощью 3D Gaussian Splatting, а затем проецирует её в вид сверху (Bird’s-Eye-View), получая выровненные по геометрии представления, что значительно повышает производительность в задачах последующей обработки.

Splat2BEV: Явная 3D-Реконструкция для Улучшенного Восприятия

Splat2BEV представляет собой фреймворк, объединяющий метод Gaussian Splatting с восприятием в формате Bird’s Eye View (BEV) для явного восстановления трехмерной сцены из входных изображений. В отличие от традиционных подходов, работающих с двухмерными картами признаков, Сплат2BEV создает волюметрическое представление окружающей среды, используя Gaussian Splatting. Этот процесс начинается с обработки входных изображений и заканчится созданием детализированной трехмерной модели, которая позволяет более эффективно выполнять задачи восприятия, такие как обнаружение объектов и семантическая сегментация, в пространстве BEV. Фактически, система преобразует визуальную информацию в формат, удобный для планирования движения и автономной навигации.

В основе Splat2BEV лежит использование 3D Gaussian Splatting, что позволяет перейти от традиционных 2D-карт признаков к волюметрическому представлению окружающей среды. Вместо представления сцены как набора двумерных признаков, Splat2BEV реконструирует её в виде плотного облака 3D-гауссиан, каждое из которых описывается своим положением, ковариацией, цветом и прозрачностью. Такой подход обеспечивает более полное и детальное представление геометрии и внешнего вида объектов, значительно улучшая понимание сцены и повышая точность последующих задач восприятия, таких как обнаружение объектов и семантическая сегментация. Волюметрическое представление позволяет эффективно хранить и обрабатывать информацию о сцене, а также обеспечивает устойчивость к изменениям освещения и перспективы.

В Splat2BEV для внедрения семантических знаний в реконструированную 3D-сцену используются предварительно обученные модели визуального восприятия, такие как DINO. DINO предоставляет информацию о семантической сегментации и классификации объектов, которая проецируется на волюметрическое представление сцены, созданное на основе Gaussian Splatting. Это позволяет не просто реконструировать геометрию окружения, но и понимать, какие объекты присутствуют в сцене и к какому классу они относятся, что существенно повышает качество восприятия и возможности для последующего анализа и принятия решений. Семантическая информация, полученная от DINO, интегрируется непосредственно в 3D-представление, обеспечивая более полное и осмысленное понимание окружающей среды.

Для инициализации генератора Gaussian Splatting и обеспечения точной 3D реконструкции в Splat2BEV используется оценка глубины, полученная с помощью Depth Anything V2. Данная модель предоставляет начальную карту глубины, которая служит основой для формирования трехмерного представления сцены. Depth Anything V2 позволяет получить предварительную оценку расстояния до объектов в изображении, что существенно повышает качество и достоверность последующей 3D реконструкции, выполняемой на основе Gaussian Splatting. Использование предварительной карты глубины снижает вычислительную сложность и ускоряет процесс создания детальной и точной 3D модели окружения.

Генератор Гаусса, состоящий из многовидовой ветви на основе UniMatch и однокадровой ветви на базе ViT-S, объединяет их представления для предсказания карт глубины и параметров Гаусса посредством U-Net, формируя таким образом трёхмерные Гауссовы представления.
Генератор Гаусса, состоящий из многовидовой ветви на основе UniMatch и однокадровой ветви на базе ViT-S, объединяет их представления для предсказания карт глубины и параметров Гаусса посредством U-Net, формируя таким образом трёхмерные Гауссовы представления.

Валидация и Производительность: Демонстрация Превосходных Результатов

Эффективность Splat2BEV была подтверждена посредством всесторонней оценки на крупных наборах данных для автономного вождения, включая nuScenes Dataset и Argoverse1 Dataset. Эти наборы данных предоставляют широкий спектр сценариев и условий вождения, позволяя провести объективную оценку производительности системы в различных ситуациях. Использование этих стандартизированных наборов данных обеспечивает возможность сравнения Splat2BEV с другими существующими методами и подтверждает его превосходство в задачах 3D-реконструкции и восприятия окружающей среды.

В основе Splat2BEV лежит функция потерь, оптимизирующая конвейер 3D-реконструкции и восприятия. Данная функция включает в себя три основных компонента: потери рендеринга, глубины и признаки. Потери рендеринга обеспечивают соответствие между реконструированной 3D-сценой и исходными 2D-изображениями. Потери глубины, использующие Metric3Dv2, направлены на повышение точности оценки глубины объектов в сцене. Потери, основанные на признаках, способствуют более эффективному извлечению и представлению признаков объектов, что в совокупности позволяет добиться высокой точности 3D-реконструкции и последующего восприятия окружающей среды.

Эффективность Splat2BEV оценивалась количественно с использованием метрики Intersection over Union (IoU), демонстрируя превосходную точность сегментации по сравнению с существующими методами. В частности, зафиксировано улучшение в 21.4% в сегментации полос движения и среднее увеличение на 11.0% по классам транспортных средств, пешеходов и полос движения. Данные результаты подтверждают значительное повышение производительности Splat2BEV в задачах 3D-восприятия и сегментации.

В процессе обучения системы Splat2BEV используется Metric3Dv2 для контроля глубины, что обеспечивает более точную 3D-реконструкцию окружения. Применение Metric3Dv2 в качестве компонента обучения позволило добиться повышения точности сегментации пешеходов на 8% по сравнению с базовыми методами. Это улучшение достигается за счет более точного определения глубины и, следовательно, более корректного выделения объектов пешеходов в трехмерном пространстве, что критически важно для систем автономного вождения.

Визуализация реконструкции демонстрирует высокое качество восстановления деталей окружения, включая такие элементы, как пешеходный переход, мусорный бак, людей и дорожную разметку, что подтверждается как общим видом 3D-реконструкции, так и увеличенными фрагментами.
Визуализация реконструкции демонстрирует высокое качество восстановления деталей окружения, включая такие элементы, как пешеходный переход, мусорный бак, людей и дорожную разметку, что подтверждается как общим видом 3D-реконструкции, так и увеличенными фрагментами.

Перспективы Развития: Расширение Области 3D-Осознанного Восприятия

Успешная реализация Splat2BEV открывает новые перспективы для применения 3D-восприятия за пределами автономного вождения. Данный подход, демонстрирующий высокую эффективность в реконструкции трехмерных сцен, может быть адаптирован для решения задач в робототехнике, создании виртуальной и дополненной реальности, а также в сфере картографии и геопространственного анализа. Возможность точного моделирования окружающей среды позволяет разрабатывать более интеллектуальные системы, способные к адаптации и эффективному взаимодействию с физическим миром, что значительно расширяет область применения технологий компьютерного зрения и искусственного интеллекта.

Дальнейшие исследования направлены на повышение эффективности и масштабируемости разработанной системы, в частности, посредством интеграции методов GaussianLSS и LSS (Lift-Splat-Shoot). Эти подходы позволяют оптимизировать процесс представления трехмерной сцены, сокращая вычислительные затраты и время обработки данных. GaussianLSS, используя гауссовские представления, обеспечивает более компактное и точное моделирование геометрии, в то время как LSS позволяет эффективно агрегировать и обрабатывать данные из различных источников. Внедрение данных технологий позволит расширить возможности системы, делая ее применимой к более сложным и масштабным задачам, требующим обработки больших объемов трехмерной информации в режиме реального времени. Это, в свою очередь, открывает перспективы для создания более надежных и эффективных автономных систем.

Восстановление трехмерной сцены позволяет значительно повысить точность прогнозирования и планирования действий автономных систем. В отличие от традиционных подходов, оперирующих с двухмерными изображениями, создание детальной трехмерной модели окружения предоставляет системе полное представление о геометрии объектов, их расположении и взаимных отношениях. Это, в свою очередь, позволяет более надежно предсказывать траектории движения других участников дорожного движения, избегать препятствий и планировать оптимальные маршруты. Повышенная точность и надежность, достигаемые благодаря трехмерной реконструкции, являются ключевыми факторами для создания безопасных и эффективных автономных систем, способных функционировать в сложных и динамичных условиях реального мира. Улучшенное понимание сцены позволяет не только реагировать на текущие события, но и предвидеть потенциальные опасности, значительно снижая риск аварийных ситуаций.

В архитектуре Splat2BEV кодировщик BEV играет ключевую роль в извлечении признаков для последующих задач, включая сегментацию. Дальнейшая оптимизация этого кодировщика направлена на повышение его способности выделять более информативные и детализированные признаки из 3D-представления сцены. Улучшение процесса извлечения признаков позволит сегментационной головке (Segmentation Head) более точно классифицировать отдельные объекты и области на изображении, повышая надежность и точность автономных систем. Исследования в этой области сосредотачиваются на усовершенствовании архитектуры кодировщика, использовании более эффективных методов обучения и интеграции дополнительных источников информации для улучшения качества извлекаемых признаков, что потенциально открывает возможности для решения более сложных задач восприятия.

Сравнение визуализации признаков, полученных с и без явной реконструкции, показывает, что явная реконструкция позволяет получить более детализированные признаки <span class="katex-eq" data-katex-display="false">BEV</span> и более точное представление спроецированных признаков из 3D-пространства.
Сравнение визуализации признаков, полученных с и без явной реконструкции, показывает, что явная реконструкция позволяет получить более детализированные признаки BEV и более точное представление спроецированных признаков из 3D-пространства.

Исследование, представленное в данной работе, подчеркивает важность точной трехмерной реконструкции сцены для создания надежных представлений в перспективе сверху (BEV). В основе Splat2BEV лежит идея о том, что согласование признаков с геометрией сцены критически важно для повышения производительности систем автономного вождения. Как однажды заметил Ян Лекун: «Машинное обучение — это, по сути, поиск оптимальных представлений данных». В контексте данной работы, Gaussian Splatting служит именно таким механизмом — построением эффективного представления трехмерной сцены, позволяющего добиться более точной и надежной BEV-перцепции, что, в свою очередь, способствует повышению безопасности и эффективности автономных транспортных средств.

Что Дальше?

Представленный подход, безусловно, элегантен в своей простоте — явное воссоздание трёхмерной сцены для последующего получения представления «с высоты птичьего полёта». Однако, следует помнить, что точность реконструкции — это не самоцель, а лишь средство достижения более надёжного восприятия. Неизбежно возникает вопрос: насколько хорошо данное представление обобщается на данные, отличающиеся от тех, на которых была произведена тренировка? Простое увеличение объёма обучающей выборки — это не решение, а лишь отсрочка неизбежного столкновения с реальным миром, полным непредсказуемых объектов и освещения.

Следующим шагом видится не столько повышение детализации воссоздаваемой геометрии, сколько разработка алгоритмов, способных оценивать достоверность и полноту реконструкции. Необходимо исследовать способы интеграции информации о неопределённости в процесс обучения, позволяя системе «знать, чего она не знает». Иначе говоря, необходима не просто реконструкция, а доказательство её корректности, а не только демонстрация «работы на тестах».

В конечном счёте, истинный прогресс будет достигнут тогда, когда система сможет не просто «видеть» окружающий мир, но и понимать его, а значит, способна к логическому выводу и планированию, основываясь на верифицированных данных. Иначе, все эти изящные алгоритмы останутся лишь красивой математической абстракцией, оторванной от реальности.


Оригинал статьи: https://arxiv.org/pdf/2603.19193.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-22 18:50