Воссоздание лиц с потрясающей детализацией: новый подход

Автор: Денис Аветисян


Исследователи разработали инновационный метод для создания реалистичных 3D-моделей лиц, используя Gaussian Splatting и деформацию мешей.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Исследование демонстрирует, что замена стандартного Gaussian Splatting на зависящую от угла обзора нейронную текстуру, посредством преобразования Гауссианов в UVW пространство с использованием родительских треугольников и последующей доработки полученных результатов на основе исходных видов (исключая текущий ракурс), позволяет достичь повышения эффективности за счет перехода к двухмерному UV пространству путём отказа от $\alpha$-смешивания, при этом не затрагивая отображение не-фронтальных областей, таких как волосы или глаза.
Исследование демонстрирует, что замена стандартного Gaussian Splatting на зависящую от угла обзора нейронную текстуру, посредством преобразования Гауссианов в UVW пространство с использованием родительских треугольников и последующей доработки полученных результатов на основе исходных видов (исключая текущий ракурс), позволяет достичь повышения эффективности за счет перехода к двухмерному UV пространству путём отказа от $\alpha$-смешивания, при этом не затрагивая отображение не-фронтальных областей, таких как волосы или глаза.

Представлен конвейер, сочетающий Gaussian Splatting и деформацию мешей для высококачественной 3D-реконструкции и генерации текстур без бликов, совместимых со стандартными графическими пайплайнами.

Воссоздание высокореалистичных трехмерных моделей лица из ограниченного набора изображений остается сложной задачей. В статье ‘Using Gaussian Splats to Create High-Fidelity Facial Geometry and Texture’ представлен новый подход, сочетающий Gaussian Splatting и деформацию мешей, для получения детализированной геометрии и текстур лица. Предложенный конвейер позволяет не только реконструировать нейтральную позу из всего 11 изображений, но и генерировать текстуры, независимые от освещения, пригодные для использования в стандартных графических движках. Возможно ли дальнейшее расширение данной технологии для автоматизированного создания цифровых активов на основе текстовых запросов и адаптации к различным условиям освещения?


Преодолевая границы: Ограничения традиционной 3D-реконструкции

Традиционные методы трехмерной реконструкции, широко применяемые, например, в рамках MetaHuman Framework, основываются на построении сложных полигональных сеток. Данный подход, несмотря на свою распространенность, характеризуется высокой вычислительной сложностью и ограниченной способностью к детализации. Каждая новая деталь требует значительного увеличения числа полигонов, что экспоненциально увеличивает нагрузку на вычислительные ресурсы. В результате, воспроизведение тонких элементов, таких как поры кожи или отдельные волоски, становится чрезвычайно затруднительным, а попытки добиться высокой реалистичности требуют компромисса между качеством изображения и производительностью. Это особенно заметно при создании интерактивных 3D-моделей, где требуется поддерживать высокую частоту кадров даже при сложных сценах.

Существующие методы трехмерной реконструкции, такие как NextFace и CoRA, демонстрируют определенный успех, однако их эффективность часто ограничена зависимостью от явного определения поверхностей. Эти подходы строят модель, опираясь на четкое описание границ объекта, что создает сложности при изменении угла обзора или появлении новых перспектив. При взгляде на объект под незнакомым углом, алгоритмы могут испытывать трудности с точной интерпретацией данных и реконструкцией реалистичного изображения. Данное ограничение связано с тем, что модели, основанные на явном определении поверхностей, плохо адаптируются к изменениям геометрии, которые становятся заметными при изменении точки наблюдения, что в конечном итоге снижает качество визуализации и реалистичность получаемого трехмерного изображения.

Существующие методы трехмерной реконструкции, несмотря на свою эффективность, требуют колоссальных вычислительных ресурсов, что становится серьезным препятствием для их применения в реальном времени и на устройствах с ограниченной мощностью. Особенно сложно им удается достоверно воспроизводить эффекты, зависящие от угла обзора — блики, отражения и тонкие изменения в освещении, которые критически важны для создания ощущения реалистичности. Неспособность точно передать эти нюансы приводит к тому, что даже самые детализированные модели выглядят искусственно и неправдоподобно, существенно снижая уровень погружения в виртуальную среду. В результате, даже при наличии высококачественной графики, пользователь не может полностью ощутить присутствие в цифровом мире, что ограничивает потенциал применения подобных технологий в играх, виртуальной реальности и других областях.

Наш метод обеспечивает более точную реконструкцию геометрии лица по сравнению с CoRA, избегая артефактов в области носа и челюсти и обеспечивая корректную де-литинговую текстуру, в отличие от CoRA, чьи текстуры содержат встроенное освещение, создающее иллюзию трехмерности.
Наш метод обеспечивает более точную реконструкцию геометрии лица по сравнению с CoRA, избегая артефактов в области носа и челюсти и обеспечивая корректную де-литинговую текстуру, в отличие от CoRA, чьи текстуры содержат встроенное освещение, создающее иллюзию трехмерности.

Неявное великолепие: Гауссианское сплеттинг в качестве основы

В отличие от традиционных методов 3D-рендеринга, использующих полигональные сетки или воксели, Gaussian Splatting представляет сцены как совокупность 3D-гауссиан. Каждый гауссиан характеризуется положением, ковариационной матрицей, определяющей его форму и ориентацию, и цветом. Такой подход позволяет значительно снизить требования к памяти, поскольку для представления сложной сцены требуется гораздо меньше параметров, чем для дискретизации ее поверхностей. Кроме того, рендеринг гауссианов может быть эффективно распараллелен на GPU, обеспечивая значительно более высокую скорость визуализации по сравнению с методами, основанными на треугольниках или вокселях. Эффективность достигается за счет использования дифференцируемого рендеринга, позволяющего оптимизировать параметры гауссианов непосредственно из изображений.

В отличие от традиционных методов 3D-рендеринга, основанных на явном представлении поверхностей, Gaussian Splatting использует неявное представление сцены в виде набора 3D-гауссиан. Это позволяет естественным образом моделировать эффекты, зависящие от точки зрения наблюдателя, такие как блики, отражения и изменения цвета в зависимости от угла обзора. Поскольку гауссианы обладают свойствами, определяющими их форму и прозрачность в зависимости от направления обзора, достигается повышенный уровень реализма и визуальной достоверности без необходимости сложных вычислений или ручной настройки параметров отражения и преломления. Данный подход позволяет создавать более убедительные изображения с минимальными вычислительными затратами, особенно при рендеринге сложных сцен с множеством отражающих поверхностей.

Неявное представление сцены в Gaussian Splatting предоставляет возможности для рендеринга и динамической манипуляции, которые затруднены при использовании традиционных методов, основанных на явном представлении поверхностей. В отличие от полигональных моделей или воксельных данных, где изменение освещения или геометрии требует пересчета видимых поверхностей, Gaussian Splatting позволяет изменять параметры гауссианов — цвет, прозрачность, ковариацию — непосредственно, что значительно ускоряет процесс. Это позволяет эффективно выполнять переосвещение сцены в реальном времени, а также динамически изменять геометрию и внешний вид объектов без необходимости перестраивать всю сцену. Изменение ковариации гауссиан позволяет реализовывать деформации объектов, а изменение цвета и прозрачности — изменять материалы и текстуры без потери качества рендеринга.

В отличие от подхода, основанного на мировых координатах, где смешивание Гауссиан зависит от угла обзора, текстурный подход обеспечивает накопление Гауссиан в постоянном направлении, ортогональном текстуре, что предотвращает размытость на новых ракурсах и повышает разрешение за счет увеличения локальности и компактности.
В отличие от подхода, основанного на мировых координатах, где смешивание Гауссиан зависит от угла обзора, текстурный подход обеспечивает накопление Гауссиан в постоянном направлении, ортогональном текстуре, что предотвращает размытость на новых ракурсах и повышает разрешение за счет увеличения локальности и компактности.

Уточняя неявное: Согласование геометрии и внешнего вида

Семантическая сегментация играет ключевую роль в согласовании гауссовых распределений с геометрией поверхности, обеспечивая точную реконструкцию сложных форм. Этот процесс подразумевает классификацию каждого пикселя изображения, определяя к какому объекту или поверхности он принадлежит. Полученные данные сегментации используются в качестве руководства для позиционирования и масштабирования гауссовых примитивов, гарантируя, что они соответствуют границам и структуре объектов в сцене. Эффективное применение семантической сегментации позволяет избежать неточностей в реконструкции, особенно в областях с высокой сложностью геометрии или текстуры, и значительно повышает качество конечной 3D-модели. Точность сегментации напрямую влияет на плотность и распределение гауссовых примитивов, что критически важно для получения детализированной и реалистичной реконструкции.

Методы деформации сетки используются для дальнейшей оптимизации распределения Гаусса, что позволяет получить более гладкое и детализированное представление сцены. В процессе деформации, вершины сетки перемещаются таким образом, чтобы лучше соответствовать базовому распределению Гаусса, уточняя его форму и плотность. Это особенно полезно для представления сложных поверхностей и мелких деталей, которые могут быть недостаточно точно отражены только исходным распределением Гаусса. Использование деформации сетки позволяет добиться более высокой точности и реалистичности реконструкции, улучшая визуальное качество и детализацию результирующей модели. При этом, деформация может выполняться как на основе фиксированной топологии сетки, так и с адаптацией топологии для более эффективного представления геометрии.

Применение мягких ограничений (soft constraints) в процессе оптимизации трехмерной реконструкции позволяет поддерживать согласованность и предотвращать появление артефактов. В отличие от жестких ограничений, которые могут приводить к нестабильности и искажениям, мягкие ограничения допускают небольшие отклонения от идеальных значений, минимизируя ошибку по заданному критерию. Это достигается путем добавления к целевой функции штрафных членов, величина которых пропорциональна нарушению ограничений. Использование таких ограничений, например, на гладкость поверхности или сохранение объёма, способствует более устойчивому и визуально привлекательному результату реконструкции, особенно в областях с недостатком данных или высокой сложностью геометрии.

Обучение на небольшом количестве не откалиброванных многовидовых изображений с использованием сегментации и ограничений по размеру и форме позволяет перемещать Гауссовы распределения вместо их деформации, обеспечивая плотную связь с треугольной поверхностью, которая затем деформируется для более точного соответствия реконструкции.
Обучение на небольшом количестве не откалиброванных многовидовых изображений с использованием сегментации и ограничений по размеру и форме позволяет перемещать Гауссовы распределения вместо их деформации, обеспечивая плотную связь с треугольной поверхностью, которая затем деформируется для более точного соответствия реконструкции.

Освещая реализм: Захват и контроль света

Точное воспроизведение освещения является ключевым фактором для достижения фотореалистичности в компьютерной графике. Для моделирования сложных световых условий широко применяется метод сферических гармоник. Данный подход позволяет представить распределение света в трехмерном пространстве с помощью набора функций, что значительно упрощает расчеты отражения и преломления света от поверхностей. $L(ω) = Σ_{l=0}^{∞} Σ_{m=-l}^{l} c_{lm} Y_{lm}(ω)$ — эта формула описывает разложение интенсивности света на сферические гармоники, где $Y_{lm}$ — функции сферических гармоник, а $c_{lm}$ — коэффициенты, определяющие вклад каждой гармоники. Использование сферических гармоник позволяет эффективно моделировать как прямое, так и косвенное освещение, создавая иллюзию реалистичного взаимодействия света с виртуальным окружением и обеспечивая визуальное погружение.

Для достижения повышенного реализма в компьютерной графике ключевым является создание так называемой De-lit текстуры. Эта текстура, сформированная на основе информации о нормалях поверхности, позволяет отделить отражательную способность материала от воздействия света. Вместо того, чтобы запекать освещение непосредственно в текстуру, De-lit текстура кодирует только базовые свойства поверхности — её цвет и отражающую способность, не зависящие от направления света. Это позволяет динамически изменять освещение в сцене, не пересчитывая текстуры, и обеспечивает более правдоподобное взаимодействие света с поверхностью объекта. Использование нормалей поверхности позволяет точно определить ориентацию каждой точки и, следовательно, правильно рассчитать влияние света, даже при сложных формах и геометрии. В результате, достигается более гибкий и реалистичный рендеринг, где освещение и отражение работают независимо, создавая убедительную визуальную иллюзию.

Для достижения фотореалистичного изображения окружающей среды, предварительная обработка изображений с использованием технологии SwitchLight играет ключевую роль. Этот процесс позволяет эффективно захватывать и кодировать информацию об освещении, значительно упрощая последующий рендеринг. В сочетании с представлением текстур на основе анализа главных компонент (PCA-based Texture), становится возможным компактное и точное хранение информации о внешнем виде поверхности и ее взаимодействии со светом. Такой подход не только снижает вычислительные затраты, но и обеспечивает более правдоподобное воссоздание освещения, позволяя добиться высокой степени реализма в визуализации без значительных потерь в производительности. Это особенно важно при работе со сложными сценами и большими объемами данных, где эффективность и точность являются критическими факторами.

Наш метод позволяет воссоздать исходное изображение, комбинируя текстурированную сетку с переосвещаемой гауссовой моделью и оценочным сферическим освещением, а затем генерирует детализированную текстуру высокого разрешения путём удаления освещения, восстановления высокочастотных деталей и последующей обработки.
Наш метод позволяет воссоздать исходное изображение, комбинируя текстурированную сетку с переосвещаемой гауссовой моделью и оценочным сферическим освещением, а затем генерирует детализированную текстуру высокого разрешения путём удаления освещения, восстановления высокочастотных деталей и последующей обработки.

Исследование, представленное в данной работе, подчеркивает важность понимания внутренней структуры данных для достижения реалистичных результатов. Авторы демонстрируют, как комбинация Gaussian Splatting и деформации сетки позволяет создавать высококачественные 3D-реконструкции лиц даже при ограниченном количестве входных данных. Как отмечал Дэвид Марр: «Понимание системы — это исследование её закономерностей». Этот принцип находит отражение в подходе, где тщательный анализ и манипулирование визуальными данными, в частности, Gaussian Splats, позволяют раскрыть скрытые закономерности и создать убедительные цифровые представления, совместимые со стандартными графическими конвейерами. Работа акцентирует внимание на де-лайтинге текстур, что является ключевым шагом в создании фотореалистичных моделей.

Что дальше?

Представленный подход, безусловно, открывает новые горизонты в реконструкции и рендеринге лиц, однако не следует забывать о лежащих в основе компромиссах. Несмотря на впечатляющую детализацию, воссоздание сложных поверхностей, особенно в областях с недостаточной освещенностью или сложной геометрией, остается непростой задачей. Каждое отклонение от идеальной реконструкции — это не ошибка, а возможность выявить скрытые зависимости между данными и алгоритмами. Необходимо исследовать методы адаптивной плотности сплэтов, позволяющие оптимизировать вычислительные затраты без потери качества.

Интересным направлением представляется интеграция с другими модальностями данных, такими как анализ мимики и выражение эмоций. Современные алгоритмы, как правило, сосредоточены на статической геометрии; динамические деформации лица, отражающие нюансы человеческого поведения, требуют принципиально новых подходов. В конечном итоге, истинный прогресс заключается не в увеличении разрешения текстур, а в создании моделей, способных к убедительной симуляции живого лица.

Стоит также задуматься о масштабируемости. Построение детализированных моделей требует значительных вычислительных ресурсов. Поиск алгоритмов, позволяющих эффективно обрабатывать большие объемы данных и создавать модели в режиме реального времени, представляется ключевой задачей. Иначе, все эти впечатляющие технологии останутся лишь лабораторными курьезами, недоступными для широкого применения.


Оригинал статьи: https://arxiv.org/pdf/2512.16397.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-21 04:10