Ожившие портреты: реалистичные 3D-аватары нового поколения

Автор: Денис Аветисян


Исследователи предложили инновационный подход к созданию фотореалистичных 3D-аватаров, сочетающий преимущества традиционных методов и новейших технологий Gaussian Splatting.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Под предложенным гибридным подходом к текстурированию и риггингу, система демонстрирует превосходную точность реконструкции лицевых деталей - включая глабеллярные морщины, носогубные складки и структуру ротовой полости - даже при экстремальных движениях лица и поворотах головы, что подтверждается использованием наборов данных NeRSemble и FREEcorpus и позволяет достоверно воссоздавать даже тончайшие элементы, такие как натяжение бровей и разделение прядей волос.
Под предложенным гибридным подходом к текстурированию и риггингу, система демонстрирует превосходную точность реконструкции лицевых деталей — включая глабеллярные морщины, носогубные складки и структуру ротовой полости — даже при экстремальных движениях лица и поворотах головы, что подтверждается использованием наборов данных NeRSemble и FREEcorpus и позволяет достоверно воссоздавать даже тончайшие элементы, такие как натяжение бровей и разделение прядей волос.

Новый метод TexAvatars объединяет текстурные и трехмерные представления для стабильной и выразительной оснастки фотореалистичных головных аватаров.

Создание реалистичных и управляемых 3D-аватаров головы остается сложной задачей, особенно при сохранении детализации и обобщающей способности. В работе ‘TexAvatars : Hybrid Texel-3D Representations for Stable Rigging of Photorealistic Gaussian Head Avatars’ предложен новый подход, объединяющий преимущества аналитического риггинга и текстурного пространства для представления 3D-аватаров на основе Gaussian Splatting. Разработанная гибридная архитектура позволяет достичь плавных и семантически осмысленных деформаций, сохраняя при этом высокую геометрическую согласованность и детализацию, включая реалистичные морщины и мимику. Сможет ли данное решение стать основой для создания по-настоящему выразительных и стабильных цифровых двойников в приложениях AR/XR?


Вызов Реалистичной Деформации Аватаров

Традиционные трехмерные морфируемые модели (3DMM), такие как FLAME, часто сталкиваются с ограничениями в воспроизведении мельчайших деталей и достижении фотореалистичности. Это связано с тем, что они опираются на заранее определенный набор базовых форм, и хотя позволяют создавать широкий спектр выражений, точность в передаче нюансов мимики, например, микро-движений кожи или асимметрии лица, оказывается недостаточной. В результате, даже при значительных усилиях по настройке параметров модели, созданные аватары могут выглядеть неестественно или лишены индивидуальности, что существенно ограничивает возможности для создания по-настоящему убедительных и реалистичных виртуальных персонажей. Вследствие этих ограничений, исследователи активно ищут альтернативные подходы, способные преодолеть эти недостатки и обеспечить более широкий и точный диапазон выражений.

Деформация сетки, представляющая собой мощный инструмент для управления формой аватара, требует тщательной разработки и точной настройки. В основе этого метода лежит манипулирование вершинами полигональной сетки, однако без должной точности в определении барицентрических координат, возникают заметные артефакты и искажения. Неправильное позиционирование вершин относительно соседних элементов может приводить к неестественным изгибам, разрывам текстур и общему снижению реалистичности изображения. Таким образом, для достижения убедительной деформации, необходимо уделять особое внимание алгоритмам интерполяции и обеспечению плавного перехода между вершинами, что является сложной задачей, требующей значительных вычислительных ресурсов и экспертных знаний в области компьютерной графики.

Существующие методы деформации аватаров зачастую не способны воспроизвести тончайшие нюансы мимики, что существенно снижает эффект погружения в виртуальную реальность. Исследования показывают, что даже незначительные пропуски в передаче микро-движений лицевых мышц — например, едва заметное прищуривание или изменение формы губ — воспринимаются пользователем как неестественность и разрушают иллюзию присутствия. В результате, несмотря на значительные успехи в моделировании общей формы и структуры лица, недостаточная детализация в воспроизведении динамики мимики остается серьезным препятствием на пути к созданию по-настоящему реалистичных и убедительных виртуальных персонажей, способных вызывать у пользователя эмоциональный отклик и ощущение подлинного взаимодействия.

Модель анимации изображений позволяет синтезировать детали, отсутствующие в 3DMM, такие как морщины и незначительные деформации кожи, значительно повышая реалистичность динамических выражений.
Модель анимации изображений позволяет синтезировать детали, отсутствующие в 3DMM, такие как морщины и незначительные деформации кожи, значительно повышая реалистичность динамических выражений.

Аватары на Основе Текселей: Дифференцируемая Основа

Аватары, основанные на текселях, обеспечивают непрерывное и дифференцируемое представление, оперируя непосредственно в пространстве текстур (UV-пространстве). Вместо манипулирования вершинами 3D-модели, деформация достигается путем изменения координат текстур, что позволяет избежать дискретизации и обеспечивает плавные переходы. Это означает, что каждая точка на текстуре соответствует определенной точке на поверхности аватара, и изменение UV-координат этой точки приводит к деформации соответствующей области модели. Такой подход позволяет использовать градиентный спуск для оптимизации деформаций, что невозможно при традиционном представлении геометрии.

Использование сверточных нейронных сетей (CNN) позволяет осуществлять манипулирование геометрией аватаров на уровне отдельных текстурных координат (UV-пространство). CNN применяются для обработки и изменения данных, представляющих деформацию поверхности аватара, что обеспечивает детальный контроль над формой и положением вершин. Этот подход позволяет осуществлять сложные деформации, такие как мимика лица или изгибы тела, с высокой точностью и детализацией, превосходя традиционные методы, основанные на скелетной анимации или ручном моделировании. Возможность обучения CNN на большом наборе данных деформаций позволяет создавать реалистичные и правдоподобные движения аватара.

Для достижения точных и реалистичных движений, Texel-Based Avatars используют систему отслеживания смещений от канонической (исходной) формы к деформированной. Вместо прямого манипулирования вершинами сетки, система отслеживает векторные смещения каждой точки текстуры (texel) в UV-пространстве. Эти смещения, рассчитанные для каждой позы или анимации, позволяют точно воспроизводить деформации, сохраняя при этом детализацию и избегая артефактов. Точность достигается за счет представления смещений в виде плотного поля векторов, что позволяет интерполировать движения между ключевыми кадрами и создавать плавные, естественные анимации. Использование векторных смещений также упрощает процедуру ретаргетинга анимаций на различные модели аватаров.

Перенос матриц Якоби сетки в текстурное пространство обеспечивает плавное смешивание атрибутов на границах треугольников, а деформация на основе Якоби эффективно моделирует растяжение и анизотропное масштабирование, уменьшая эффект размытия.
Перенос матриц Якоби сетки в текстурное пространство обеспечивает плавное смешивание атрибутов на границах треугольников, а деформация на основе Якоби эффективно моделирует растяжение и анизотропное масштабирование, уменьшая эффект размытия.

Локальные Гибкие Гауссианы: Выразительный и Эффективный Рендеринг

Локальные гибкие гауссианы представляют собой расширение метода 3D Gaussian Splatting, адаптированное для представления аватаров. В отличие от статических 3D гауссианов, данная реализация позволяет деформировать геометрию в пространстве текстур, что обеспечивает адаптацию к различным выражениям лица и позам. Это достигается путем применения локальных трансформаций к каждому гауссиану, позволяя динамически изменять его форму и положение в зависимости от целевого выражения или позы, сохраняя при этом высокую детализацию и визуальную достоверность.

Для обеспечения плавной адаптации гауссов к различным мимическим выражениям используется система Expression Parameters и Quasi-Phong Jacobian Field. Expression Parameters представляют собой набор управляющих параметров, определяющих степень деформации гауссиан в текстурном пространстве. Quasi-Phong Jacobian Field, в свою очередь, обеспечивает корректное преобразование координат и обеспечивает плавность деформации при изменении этих параметров. Данный подход позволяет моделировать сложные выражения лица, сохраняя при этом геометрическую достоверность и избегая артефактов, возникающих при резких изменениях формы.

Предложенный подход обеспечивает высококачественную визуализацию с эффективными вычислительными затратами. Для обучения требуется всего 6-10 ГБ видеопамяти, при этом достигается частота кадров 50.85 FPS на одной видеокарте RTX 3090 Ti. Это демонстрирует значительное повышение производительности по сравнению с существующими методами. Кроме того, данная технология обеспечивает улучшенную геометрическую точность и стабильную экстраполяцию выражений, что позволяет создавать реалистичные и динамичные 3D-модели.

Данный подход обеспечивает высококачественную визуализацию с эффективными вычислительными затратами, что подтверждается использованием датасета NeRSemble для обучения и оценки. NeRSemble предоставляет обширный набор данных, включающий разнообразные сцены и объекты, что позволяет обучать и валидировать модель в различных условиях. Вычислительная эффективность достигается за счет оптимизированной архитектуры и алгоритмов рендеринга, что позволяет добиться высокой производительности даже на потребительском оборудовании. Использование данного датасета и оптимизаций обеспечивает стабильность и качество результатов визуализации.

Набор данных NeRsemble, включающий разнообразные выражения лица и локальные изменения, позволяет TexAvatars реалистично воспроизводить как глобальные эмоции, так и локальные движения, обеспечивая успешную само- и кросс-перенос выражений.
Набор данных NeRsemble, включающий разнообразные выражения лица и локальные изменения, позволяет TexAvatars реалистично воспроизводить как глобальные эмоции, так и локальные движения, обеспечивая успешную само- и кросс-перенос выражений.

Повышение Реалистичности с Восприятием Потерь и Зависимыми от Точки Обзора Эффектами

В процессе обучения виртуальных аватаров, интеграция функции потерь VGG позволяет значительно повысить качество воспринимаемого изображения. Суть подхода заключается в том, что вместо прямой оценки различий между сгенерированным и реальным изображением, система анализирует их на основе признаков, извлеченных из глубокой сверточной сети VGG, предварительно обученной на большом наборе данных изображений. Такой метод позволяет учитывать не только пиксельные различия, но и более сложные аспекты визуального восприятия, такие как текстура, форма и стиль. В результате, даже при относительно низком разрешении или упрощенной геометрии, сгенерированные аватары выглядят более реалистично и эстетически привлекательно для зрителя, что особенно важно для приложений виртуальной и дополненной реальности, где требуется максимальное погружение и правдоподобность.

Для достижения более реалистичной визуализации, в процессе рендеринга активно используется карта Плюккера. Этот метод позволяет учитывать зависимость отражающих свойств поверхности от угла зрения наблюдателя, создавая эффект, близкий к тому, как свет взаимодействует с реальными объектами. Вместо упрощенных моделей освещения, карта Плюккера оперирует с геометрией лучей света, что позволяет точно моделировать блики, отражения и другие визуальные эффекты, зависящие от позиции зрителя. В результате, изображение становится более динамичным и правдоподобным, значительно повышая уровень погружения в виртуальную или дополненную реальность и открывая новые возможности для создания убедительных цифровых аватаров.

Сочетание функций потерь, основанных на восприятии, и эффектов, зависящих от точки зрения, открывает новые горизонты в реалистичной визуализации аватаров. Данный подход позволяет значительно улучшить качество изображения, приближая его к фотографической точности и создавая иллюзию присутствия. Возможность динамически учитывать точку зрения наблюдателя при рендеринге существенно повышает степень погружения в виртуальную или дополненную реальность. В результате, подобные технологии находят применение не только в развлечениях и играх, но и в более серьезных областях, таких как медицинская симуляция, дистанционное обучение и разработка прототипов, где визуальная достоверность играет ключевую роль.

Использование перцептуальной VGG-потери позволяет улучшить реконструкцию мелких деталей, например, растительности на лице, за счет повышения точности высокочастотных составляющих изображения.
Использование перцептуальной VGG-потери позволяет улучшить реконструкцию мелких деталей, например, растительности на лице, за счет повышения точности высокочастотных составляющих изображения.

Исследование, представленное в данной работе, демонстрирует стремление к созданию систем, способных выдерживать испытание временем. Авторы, объединяя mesh-based и texel-based подходы в рамках 3D Gaussian Splatting, фактически создают архитектуру, которая учитывает историю своей эволюции. Как однажды заметил Кен Томпсон: «Все системы стареют — вопрос лишь в том, делают ли они достойно». Эта фраза резонирует с представленным методом, поскольку он стремится не просто к мгновенной реалистичности, но и к долговечности и обобщающей способности создаваемых аватаров, позволяя им адаптироваться и сохранять свою выразительность в различных условиях и задачах.

Что дальше?

Представленная работа, несомненно, представляет собой шаг к созданию более убедительных цифровых образов. Однако, стоит признать, что любая система, претендующая на реализм, неизбежно сталкивается с вопросом о несовершенстве. Попытка зафиксировать экспрессию в трехмерном пространстве — это всегда компромисс между точностью и обобщением. Каждый сбой в воссоздании мимики — это сигнал времени, напоминание о том, что живая форма не поддается полной цифровой имитации.

Очевидно, что дальнейшее развитие потребует рефакторинга базовых представлений. Необходимо двигаться от простого переноса существующих техник к созданию принципиально новых методов, учитывающих не только визуальную правдоподобность, но и динамику процессов, происходящих в реальной физиологии лица. Интересным направлением представляется исследование возможности интеграции представлений о микровыражениях и подсознательных движениях, которые зачастую остаются незамеченными, но играют ключевую роль в восприятии.

В конечном итоге, задача состоит не в том, чтобы создать идеальную копию, а в том, чтобы построить систему, способную к адаптации и эволюции. Рефакторинг — это диалог с прошлым, попытка извлечь уроки из ошибок и создать более устойчивую и гибкую архитектуру. И тогда, возможно, удастся создать цифровые образы, которые будут не просто реалистичными, но и живыми в своей собственной, искусственной форме.


Оригинал статьи: https://arxiv.org/pdf/2512.21099.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-26 10:34