Ожившие сцены: реалистичная 3D-реконструкция с фокусом на человека

Автор: Денис Аветисян


Новый подход позволяет создавать динамичные 3D-модели сцен из видео, уделяя особое внимание точности и естественности реконструкции человеческих объектов.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
GaussianAvatar демонстрирует неспособность к полноценной реконструкции сцены, что приводит к снижению качества визуализации аватара.
GaussianAvatar демонстрирует неспособность к полноценной реконструкции сцены, что приводит к снижению качества визуализации аватара.

В статье представлена стратегия Separate-then-Map (StM) для улучшения 3D-реконструкции человеко-центричных сцен из монокулярного видео, использующая 3D Gaussian Splatting и Neural Radiance Fields.

Восстановление динамичных сцен с участием человека из монокулярного видео остается сложной задачей, требующей учета как движения самого человека, так и взаимодействия с окружением. В работе «Dynamic Avatar-Scene Rendering from Human-centric Context» предложена стратегия Separate-then-Map (StM), позволяющая эффективно объединять отдельные представления человека и фона в единое пространство. Ключевая идея заключается в использовании механизма информационного отображения, обеспечивающего согласованность и устраняющего артефакты на границах взаимодействия. Сможет ли предложенный подход стать основой для создания более реалистичных и интерактивных виртуальных сред?


Иллюзия Глубины: Задача 3D-Реконструкции

Создание точных трехмерных моделей по визуальным данным критически важно для AR/VR и робототехники. Несмотря на прогресс в компьютерном зрении, надежная 3D-реконструкция остается сложной задачей, особенно при использовании данных с одной камеры. Отсутствие информации о глубине затрудняет интерпретацию и приводит к неточностям в реконструируемой модели. В конечном итоге, каждая новая методика оказывается лишь очередным усложнением старых проблем.

Существующие методы, обучающиеся на ограниченном монокулярном видео с изображением движущегося человека, сталкиваются с трудностями поддержания целостности аватара и страдают от неожиданных перекрытий и артефактов в областях взаимодействия аватара и фона, в то время как предложенная стратегия Separate-then-Map (StM) обеспечивает более точную и полную реконструкцию путем сопоставления различных представлений модели в единое пространство.
Существующие методы, обучающиеся на ограниченном монокулярном видео с изображением движущегося человека, сталкиваются с трудностями поддержания целостности аватара и страдают от неожиданных перекрытий и артефактов в областях взаимодействия аватара и фона, в то время как предложенная стратегия Separate-then-Map (StM) обеспечивает более точную и полную реконструкцию путем сопоставления различных представлений модели в единое пространство.

Разделяй и Властвуй: Ранние Подходы к Реконструкции

Первоначальные подходы к реконструкции разделяли сцену на человека и фон, что упрощало задачу, но приводило к трудностям при отображении взаимодействий и перекрытий. Точная реконструкция сцены зависит от корректной оценки положения и ориентации камеры, для автоматизации которой часто используются инструменты вроде Colmap. Определение положения камеры – основа для дальнейшей трехмерной реконструкции.

Предложенный метод демонстрирует генерацию высококачественных результатов при синтезе новых поз и композиции новых сцен, сохраняя мелкие детали и целостность аватара и уменьшая количество плавающих артефактов на фоне.
Предложенный метод демонстрирует генерацию высококачественных результатов при синтезе новых поз и композиции новых сцен, сохраняя мелкие детали и целостность аватара и уменьшая количество плавающих артефактов на фоне.

Склейка Реальности: Единое Пространство для Когерентных Сцен

Целью целостной 4D-реконструкции является преодоление существующих ограничений путем моделирования всей сцены как единого целого. В основе подхода лежит механизм отображения общей информации, который проецирует передний и задний планы в общее пространство с использованием Residual MLPs. Для повышения качества реконструкции используется контроль глубины в качестве регуляризатора. Разработанная стратегия Separate-then-Map (StM) демонстрирует улучшения в динамической человеко-ориентированной реконструкции сцены, достигая PSNR 27.44 (Seattle) и 26.26 (Citron). Показатели перцептивного качества: SSIM 0.953 (Seattle) и 0.941 (Citron), LPIPS 0.022 (Seattle) и 0.025 (Citron).

Анализ регуляризации глубины показывает, что HUGS демонстрирует сильное размытие на границах взаимодействия человека и сцены (стопы/контакт с землей, выделено красными рамками), а глубинное обучение улучшает структуру, но все еще производит размытые границы по сравнению с предложенным методом, при этом оставляя видимые следы аватара (призрачные отпечатки в красных рамках) на фоне, что указывает на неспособность регуляризации глубины обеспечить четкое разделение переднего и заднего планов, в то время как предложенный метод обеспечивает четкие границы и отсутствие артефактов на фоне.
Анализ регуляризации глубины показывает, что HUGS демонстрирует сильное размытие на границах взаимодействия человека и сцены (стопы/контакт с землей, выделено красными рамками), а глубинное обучение улучшает структуру, но все еще производит размытые границы по сравнению с предложенным методом, при этом оставляя видимые следы аватара (призрачные отпечатки в красных рамках) на фоне, что указывает на неспособность регуляризации глубины обеспечить четкое разделение переднего и заднего планов, в то время как предложенный метод обеспечивает четкие границы и отсутствие артефактов на фоне.

Исследование демонстрирует, как очередная «революция» в области 3D-реконструкции, а именно использование Gaussian Splatting и стратегии Separate-then-Map (StM), пытается приручить хаос человеко-центричных сцен. Разделение на «человека» и «фон» – это, конечно, элегантно, но, зная жизнь, можно предположить, что рано или поздно и эта система начнет выдавать артефакты, когда кто-нибудь встанет на фон. Как метко заметил Джеффри Хинтон: «Я думаю, что мы находимся на пути к искусственному интеллекту, который превзойдет людей во всех областях, включая общие». В контексте данной работы, это означает, что даже самая изощренная система 3D-реконструкции в конечном итоге столкнется с непредсказуемостью реального мира, и ей придется как-то адаптироваться или падать красиво и последовательно.

Что дальше?

Предложенная стратегия Separate-then-Map, безусловно, элегантна. Разделение реконструкции на человека и фон – ход логичный, учитывая историческую склонность систем компьютерного зрения к трудностям с динамическими объектами. Однако, как показывает опыт, любое разделение – это всегда упрощение. Вопрос в том, насколько быстро эти упрощения начнут проявляться в виде артефактов при усложнении сцены. Уверен, найдутся видео, где даже тщательно выстроенная согласованность между представлениями человека и фона даст трещину.

Появление 3D Gaussian Splatting и Neural Radiance Fields, конечно, впечатляет, но не стоит забывать, что за красивыми рендерингами неизбежно скрывается техдолг. Масштабируемость, о которой так любят говорить, обычно оказывается иллюзией. Вспомните 2012-й – тогда тоже обещали бесконечное представление данных. Если тесты показывают только зелёный цвет – это, вероятнее всего, значит, что они вообще ничего не проверяют.

Следующим шагом, вероятно, станет попытка обойти само разделение, создав единую, самообучающуюся систему, способную понимать контекст сцены и динамически адаптироваться к изменениям. Или, что более вероятно, появятся новые способы «залатать» существующие методы, добавляя всё больше и больше параметров. В любом случае, цикл «революция – техдолг» продолжится.


Оригинал статьи: https://arxiv.org/pdf/2511.10539.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-15 00:53