От лучей к проекциям: новый взгляд на синтез изображений

Автор: Денис Аветисян


Исследователи предлагают инновационный подход к созданию реалистичных изображений с новых точек зрения, основанный на переходе от представления лучей к проекциям.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
При случайном глобальном преобразовании <span class="katex-eq" data-katex-display="false">\mathrm{SE}(3)</span>, модели, обусловленные лучами, демонстрируют вырождение результатов, в то время как проективная обусловленность сохраняет устойчивость.
При случайном глобальном преобразовании \mathrm{SE}(3), модели, обусловленные лучами, демонстрируют вырождение результатов, в то время как проективная обусловленность сохраняет устойчивость.

В статье представлен метод проекционной обусловленности, улучшающий устойчивость и согласованность синтеза изображений за счет использования проекционного изображения облака точек вместо прямой кодировки параметров камеры с использованием координат Плюккера.

Несмотря на успехи в синтезе новых видов, существующие модели часто уязвимы к небольшим изменениям параметров камеры и демонстрируют непоследовательность в геометрии. В работе ‘From Rays to Projections: Better Inputs for Feed-Forward View Synthesis’ предложен новый подход, заменяющий прямое кодирование параметров камеры на проекционное представление, обеспечивающее стабильный двухмерный вход. Это позволяет переформулировать задачу как более устойчивую проблему преобразования изображения, а также использовать некалиброванные данные для предварительного обучения модели. Может ли предложенный метод стать основой для создания более надежных и геометрически корректных систем синтеза новых видов?


Неустойчивость и Хрупкость в Синтезе Видов

Крупномасштабные модели синтеза видов (LVSM) демонстрируют впечатляющую способность генерировать изображения с новых точек обзора, однако эта способность сопряжена с проблемой нестабильности. Даже незначительные изменения в параметрах камеры могут приводить к существенным искажениям и несоответствиям в полученном изображении. Это проявляется в виде артефактов, неестественных переходов и общей визуальной непоследовательности, что ограничивает применимость LVSM в задачах, требующих высокой точности и реалистичности, таких как виртуальная и дополненная реальность, а также в роботизированной навигации и 3D-реконструкции сцен. Несмотря на значительный прогресс в области машинного обучения, поддержание стабильности и предсказуемости при синтезе новых видов остается серьезным вызовом для современных моделей.

Хрупкость больших моделей синтеза видов (LVSM) объясняется тем, как они представляют изменения перспективы. Вместо работы с полноценным трехмерным представлением сцены, модели оперируют пространством лучей — набором прямых, исходящих из камеры. Даже незначительные возмущения в этих лучах, вызванные небольшим изменением положения камеры, могут приводить к существенным искажениям на итоговом изображении. Представьте, что каждый луч — это нить, и любое её смещение влияет на всю картину. Эта чувствительность к малейшим отклонениям и проявляется как «хрупкость», ограничивая надежность моделей в задачах, требующих точного понимания геометрии сцены и стабильного рендеринга новых видов.

Традиционные методы синтеза видов, используемые в больших моделях (LVSM), часто сталкиваются с проблемой поддержания трехмерной согласованности сцены. Это проявляется в неспособности достоверно реконструировать геометрию объектов и их взаимное расположение, что приводит к визуальным артефактам и искажениям при незначительных изменениях угла обзора камеры. Ограниченная способность к пониманию глубины и структуры сцены серьезно снижает надежность таких систем в практических приложениях, где требуется точное восприятие окружающего мира, например, в робототехнике, дополненной реальности или автономном вождении. Недостаточная трехмерная согласованность делает синтезированные изображения неустойчивыми и непредсказуемыми, препятствуя их использованию в задачах, требующих высокой точности и реалистичности.

Наш метод демонстрирует более геометрически согласованные результаты, в то время как LVSM испытывает трудности с поддержанием геометрической целостности, а RayZer и AnySplat не могут правильно восстановить параметры камеры.
Наш метод демонстрирует более геометрически согласованные результаты, в то время как LVSM испытывает трудности с поддержанием геометрической целостности, а RayZer и AnySplat не могут правильно восстановить параметры камеры.

Проективная Кондиция: Геометрическая Основа для Устойчивости

Проективная кондиция представляет собой новый подход к LVSM (локализации и картированию), заключающийся в использовании изображения проекции облака точек, полученного из контекстных видов. Вместо прямой обработки необработанных данных сенсоров, метод предполагает предварительное преобразование информации из контекстных камер в двумерное изображение, которое затем используется в качестве входных данных для модели LVSM. Это позволяет создать более стабильное и надежное представление окружения, поскольку информация о геометрии сцены кодируется в виде изображения, что упрощает ее обработку и интерпретацию моделью. Полученное изображение проекции облака точек служит своего рода «геометрической подсказкой», направляющей процесс локализации и картирования.

Метод Projective Conditioning использует детерминированный геометрический движок для обеспечения стабильных преобразований камеры и точной растризации облака точек, что создает надежную геометрическую основу. Этот движок гарантирует предсказуемость и воспроизводимость результатов, поскольку все вычисления основаны на четко определенных параметрах и алгоритмах. Точность растризации достигается за счет применения строгих геометрических правил и алгоритмов интерполяции, что минимизирует ошибки, возникающие при преобразовании трехмерных точек в двумерное изображение. Стабильность преобразований камеры обеспечивается за счет использования точных матриц преобразования, рассчитанных на основе калибровки камеры и положения в пространстве. Такой подход позволяет получить устойчивые геометрические представления, необходимые для надежной работы систем локализации и картирования (LVSM).

Для генерации исходного облака точек в системе используются готовые модели компьютерного зрения, что позволяет снизить затраты на разработку и интеграцию. При этом, для повышения согласованности и точности извлечения признаков, применяются современные алгоритмы, такие как DINOv3. Данный подход позволяет улучшить качество представления сцены и повысить надежность последующей обработки данных, обеспечивая более стабильные результаты работы системы в различных условиях.

Предложенный двухэтапный процесс обучения сначала выполняет самообучение модели для реконструкции исходного изображения, а затем, используя информацию о глубине из сенсоров, дообучает её для генерации финального изображения с учётом геометрических подсказок.
Предложенный двухэтапный процесс обучения сначала выполняет самообучение модели для реконструкции исходного изображения, а затем, используя информацию о глубине из сенсоров, дообучает её для генерации финального изображения с учётом геометрических подсказок.

Обучение Надежным Априорным Знаниям: Дополнение Видов и Позиционное Кодирование

Предварительное обучение с использованием метода MAE (Masked Auto-Encoding) позволяет модели эффективно изучать априорные знания о заполнении пропусков между различными видами сцены. MAE подразумевает маскирование части входных данных (в данном случае, пикселей или признаков изображения) и последующее восстановление этих замаскированных участков моделью. Этот процесс обучения формирует у модели способность предсказывать недостающую информацию, основываясь на видимых частях других видов, что значительно улучшает качество реконструкции и обеспечивает согласованность между различными перспективами. По сути, MAE создает сильный априорный фильтр для заполнения пропусков, который используется для повышения точности и надежности 3D-реконструкции.

Комбинация полученного априорного знания (Cross-View Completion Prior) с вращающимся позиционным кодированием (Rotary Positional Embedding) обеспечивает модель критически важной информацией о пространственном расположении элементов сцены. Вращающееся позиционное кодирование эффективно встраивает абсолютную и относительную позицию каждого элемента в векторное представление, что позволяет модели лучше понимать геометрическую структуру сцены и взаимосвязи между объектами. Это особенно важно для задач, требующих понимания трехмерного пространства, поскольку позволяет модели восстанавливать недостающие данные и генерировать более реалистичные и когерентные представления сцены, даже при наличии неполной информации.

Метод демонстрирует улучшение 3D-консистентности за счет обусловленности на основе спроецированного облака точек и использования полученных априорных знаний. На невидимых областях достигнут показатель PSNR в 21.29 дБ, что на 1.90 дБ превосходит результат, полученный с использованием LVSM. Данное улучшение свидетельствует об эффективности предложенного подхода к восстановлению и заполнению данных в 3D-сценах, особенно в областях, не представленных во входных данных.

Обучение модели состоит из двух этапов: предварительного, на котором происходит реконструкция целевого вида из случайным образом замаскированной версии, используя не откалиброванные изображения, и последующей тонкой настройки, включающей реконструкцию целевого вида из проекции облака точек, полученной путем преобразования контекстных видов в целевую камеру.
Обучение модели состоит из двух этапов: предварительного, на котором происходит реконструкция целевого вида из случайным образом замаскированной версии, используя не откалиброванные изображения, и последующей тонкой настройки, включающей реконструкцию целевого вида из проекции облака точек, полученной путем преобразования контекстных видов в целевую камеру.

За пределами Реализма: Расширение Возможностей Синтеза Видов

Предложенный метод демонстрирует передовые результаты на эталонном тесте View Consistency Benchmark, что свидетельствует о его высокой устойчивости к изменениям положения камеры. Эталонный тест позволяет оценить способность алгоритма генерировать реалистичные изображения с различных точек обзора, даже при значительных перемещениях и поворотах камеры. Достижение высоких показателей на данном тесте подтверждает способность метода эффективно восстанавливать трехмерную структуру сцены и синтезировать новые виды, сохраняя визуальную согласованность и детализацию. Такая устойчивость к трансформации камеры является критически важной для широкого спектра приложений, включая виртуальную и дополненную реальность, а также создание интерактивных 3D-моделей.

Для обучения и оценки предложенного метода использовался датасет RealEstate10K, представляющий собой тщательно отобранную коллекцию изображений интерьеров с плотными 3D-аннотациями. Особенностью данного датасета является высокая точность и детализация трехмерных моделей, что делает его незаменимым инструментом для оценки 3D-согласованности при синтезе новых видов. Плотные аннотации позволяют точно измерять искажения и несоответствия в реконструируемых трехмерных сценах, обеспечивая надежную метрику для сравнения различных алгоритмов. Использование RealEstate10K гарантирует, что полученные результаты адекватно отражают способность метода создавать реалистичные и согласованные виды из произвольных точек обзора.

Предложенный подход демонстрирует значительное превосходство в синтезе новых видов, превосходя метод LVSM на 11.0 дБ и достигая показателя PSNR в 25.43 дБ при оценке на Consistency Benchmark (World Scale transformation). Это означает существенное улучшение качества реконструируемых изображений и более реалистичную передачу деталей. Важно отметить, что данная методика не только обеспечивает превосходное качество, но и работает в режиме реального времени, что делает её более эффективной по сравнению с базовыми решениями на основе 3D Gaussian, требующими больших вычислительных ресурсов. Полученные результаты открывают возможности для широкого применения в сферах виртуальной и дополненной реальности, а также в задачах компьютерного зрения, требующих быстрой и точной реконструкции сцен.

На наборе данных RealEstate10K наша модель демонстрирует более реалистичные и геометрически корректные результаты, избегая типичных артефактов рендеринга (размытие, призрачные изображения, выделены оранжевым) и ошибок геометрии, связанных с нарушением структуры сцены или неправильной перспективой (выделены синим).
На наборе данных RealEstate10K наша модель демонстрирует более реалистичные и геометрически корректные результаты, избегая типичных артефактов рендеринга (размытие, призрачные изображения, выделены оранжевым) и ошибок геометрии, связанных с нарушением структуры сцены или неправильной перспективой (выделены синим).

Представленная работа демонстрирует стремление к математической чистоте в области синтеза новых видов. Авторы, вводя проекционное обуславливание, фактически переходят от непосредственного кодирования параметров камеры к представлению входных данных в виде проекции облака точек. Этот подход, подкрепленный стратегией самообучения, направлен на повышение устойчивости и согласованности результатов. Как однажды заметил Эндрю Ын: «Мы должны стремиться к созданию систем, которые не просто работают, но и могут быть воспроизведены и поняты». Данное исследование, акцентируя внимание на геометрических основах и детерминированном представлении данных, в полной мере соответствует этому принципу, обеспечивая не только визуальную правдоподобность, но и предсказуемость поведения системы.

Что дальше?

Представленная работа, безусловно, демонстрирует элегантность подхода к синтезу новых видов посредством проективной обусловленности. Однако, необходимо признать, что замена прямого кодирования параметров камеры на представление в виде проекции облака точек — это, скорее, изящное обходное решение, нежели фундаментальное устранение проблемы неоднозначности в определении геометрии сцены. Сохраняется вопрос: достаточно ли лишь проективной информации для построения действительно достоверной трехмерной модели, или же требуется привлечение дополнительных, более строгих математических ограничений?

Самообучающаяся предобусловленность, хотя и улучшает согласованность видов, все же остается эвристическим методом. Необходимо разработать более формальные критерии оценки качества реконструированной геометрии, не полагающиеся исключительно на эмпирические наблюдения. Настоящая проверка — это не просто «работает на тестовых данных», а доказательство корректности алгоритма в общем случае. Иначе, мы лишь создаем иллюзию понимания, а не истинное знание.

Будущие исследования должны быть направлены на интеграцию представленных подходов с методами, основанными на дифференциальной геометрии и алгебраической топологии. Истинная элегантность в машинном зрении, как и в любой науке, заключается не в сложности модели, а в ее способности описывать реальность с максимальной точностью и минимальным количеством допущений. Иначе, это всего лишь еще один «черный ящик», результат работы которого можно проверить лишь на конкретном наборе данных.


Оригинал статьи: https://arxiv.org/pdf/2601.05116.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-12 04:51