Ожившие аватары: новый взгляд на реалистичную анимацию лиц и рук

Автор: Денис Аветисян

Исследователи представили Neural Billboards — инновационный подход к созданию фотореалистичных аватаров с правдоподобным взаимодействием рук и лица.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Несмотря на более низкие показатели PSNR по протоколу оценки, NBAvatar демонстрирует более четкие детали и реалистичные деформации лица и рук, в то время как InteractAvatar страдает от характерных артефактов 3DGS, проявляющихся в размытых текстурах лица и выступающих гауссианах по контуру аватара.

Метод объединяет преимущества явных плоских примитивов и неявных нейронных текстур для рендеринга динамичных сцен с высокой степенью реализма.

Воссоздание реалистичных аватаров с естественными взаимодействиями рук и лица остается сложной задачей из-за необходимости учета нежестких деформаций и тонких визуальных изменений. В статье ‘NBAvatar: Neural Billboards Avatars with Realistic Hand-Face Interaction’ предложен новый метод, использующий гибридное представление на основе явных планарных примитивов и неявных нейронных текстур для рендеринга динамических аватаров. Такой подход позволяет добиться высокой согласованности геометрии во времени и при различных позах, а также реалистично моделировать изменения цвета, вызванные взаимодействием рук и лица. Сможет ли NBAvatar стать основой для создания еще более убедительных и интерактивных цифровых двойников?

Реалистичное взаимодействие: вызовы в рендеринге аватаров

Традиционные методы рендеринга аватаров сталкиваются с серьезными трудностями при реалистичном отображении взаимодействия рук и лица, что обусловлено ограничениями в фиксации и воспроизведении тонких, нежестких деформаций. Человеческое лицо и кисти рук обладают высокой степенью подвижности и сложной анатомией, и даже незначительные искажения могут существенно повлиять на восприятие реалистичности. Существующие алгоритмы зачастую упрощают эти деформации, либо полагаются на заранее заданные модели, которые не способны адекватно отразить все разнообразие возможных поз и ракурсов. В результате, создаваемые аватары могут казаться неестественными и вызывать эффект «зловещей долины», когда почти реалистичное изображение вызывает чувство дискомфорта и отторжения у наблюдателя. Для преодоления этих сложностей необходимы инновационные подходы к захвату и моделированию нежестких деформаций, позволяющие воссоздать мельчайшие нюансы движений и выражений лица и рук.

Существующие методы рендеринга аватаров часто сталкиваются с проблемой обобщения: упрощенные модели, используемые для имитации движений и выражений, не способны достоверно воспроизводить широкий спектр поз и углов обзора. Это приводит к так называемому эффекту «зловещей долины», когда почти реалистичное изображение вызывает у наблюдателя дискомфорт и отторжение из-за едва заметных, но неестественных деталей. Неспособность адекватно передать нюансы нежестких деформаций, особенно в области лица и кистей рук, подчеркивает искусственность персонажа, разрушая иллюзию присутствия и снижая степень погружения в виртуальную реальность. Для создания действительно убедительных аватаров требуется преодолеть эти ограничения и разработать алгоритмы, способные генерировать правдоподобные движения и выражения в любых условиях.

Для достижения фотореалистичных аватаров необходима сложная система рендеринга, способная достоверно воспроизводить как мимику лица, так и взаимодействие рук в динамичной сцене. Эта система должна учитывать мельчайшие нежесткие деформации кожи, изменения в мускулатуре и тонкие движения, возникающие при естественном общении. Достижение этой реалистичности требует не просто моделирования геометрии, но и точного учета физических свойств материалов, освещения и теней, а также динамического поведения тканей. Успешная реализация подобного конвейера рендеринга позволит создать цифровых персонажей, которые выглядят и двигаются настолько правдоподобно, что стирают границы между виртуальным и реальным мирами, открывая новые возможности для взаимодействия и коммуникации.

Представленный метод позволяет реалистично синтезировать новые виды сцен взаимодействия рук и лица для человеческих аватаров, превосходя существующие подходы, такие как InteractAvatar, и обеспечивая перенос поз между разными людьми.

Нейронные билборды: гибридное представление для рендеринга в реальном времени

Neural Billboards представляют собой гибридный подход к представлению аватаров, сочетающий в себе явную геометрию билбордов и неявные нейронные текстуры для повышения эффективности рендеринга. Вместо традиционного моделирования сложной трехмерной геометрии аватара, система использует набор плоских полигонов (билбордов), ориентированных на камеру. Внешний вид этих билбордов определяется нейронной сетью, которая генерирует текстуры на основе входных параметров. Такое сочетание позволяет добиться высокой скорости рендеринга при сохранении детализации и реалистичности изображения, что особенно важно для приложений реального времени и виртуальной реальности.

Для инициализации нейронных текстур в Neural Billboards используются спектральные координаты. Этот подход обеспечивает структурированное низкочастотное представление, которое улучшает качество рендеринга. Спектральные координаты преобразуют трехмерные координаты в частотную область, что позволяет эффективно кодировать низкочастотные детали геометрии и текстуры. Использование низкочастотного представления снижает вычислительную сложность и объем памяти, необходимые для хранения и обработки текстур, при этом сохраняя важные визуальные детали. $\omega = (u, v, \frac{1}{z})$ — пример спектральных координат, где $u$ и $v$ — текстурные координаты, а $z$ — глубина.

Обучение модели Neural Billboards использует метод Silhouette Supervision, заключающийся в применении силуэтов объектов в качестве контрольных точек для коррекции геометрии и предотвращения артефактов. Этот подход позволяет обеспечить высокую точность представления формы аватара. Для повышения эффективности обучения и рендеринга применяется Deferred Neural Rendering (DNR), который разделяет этапы вычисления геометрии и текстуры. DNR позволяет оптимизировать процесс рендеринга, снижая вычислительную нагрузку и обеспечивая высокую частоту кадров при сохранении качества изображения.

Для рендеринга нейронных билбордов используется метод, при котором альфа-текстура инициализируется гауссовым распределением, а нейронная текстура заполняется спектральными координатами, после чего оба слоя оптимизируются градиентами от растризатора для получения RGB-изображения через обучаемый рендерер.

Моделирование динамического взаимодействия: от позы к деформации

Для обеспечения реалистичной анимации лица и отслеживания движений рук используется параметрическое моделирование. Модель FLAME (Facial Landmark and Expression Model) применяется для генерации выражений лица и управления его формой, позволяя создавать правдоподобные лицевые анимации. Параллельно, для отслеживания и моделирования движений рук используется MANO (Multi-Articulated Network for Hands), предоставляющая детальное представление о форме и позе кисти. Комбинация FLAME и MANO позволяет создавать когерентные и реалистичные взаимодействия между лицом и руками, необходимые для точного моделирования динамических сцен.

Для моделирования нежестких деформаций лица, вызванных взаимодействием с рукой, используется метод Position-Based Dynamics (PBD). PBD позволяет симулировать физически правдоподобные движения, основываясь на сохранении расстояний между точками на поверхности лица. В отличие от традиционных методов, требующих решения сложных систем уравнений, PBD итеративно корректирует положения вершин модели, минимизируя отклонения от заданных ограничений расстояния. Это обеспечивает стабильность симуляции и позволяет реалистично отображать деформации, возникающие при контакте руки с лицом, избегая нефизичных артефактов и обеспечивая плавность анимации.

В основе нашей системы нейрорендеринга лежит архитектура UNet, преобразующая растрированные признаки в высококачественное RGB-изображение. На задаче самовоспроизведения (self-reenactment) достигнута перцептивная дистанция (LPIPS) в 0.052, что на 21.2% меньше, чем у базовых моделей. Данный показатель демонстрирует улучшенное качество рендеринга и более реалистичное воспроизведение динамических сцен по сравнению с существующими методами.

Метод восстанавливает деформацию лица по многокамерному видео, используя параметрические модели FLAME[li2017learning] и MANO[romero2022embodied] с позиционно-основанной динамикой (PBD)[muller2007position], а затем, используя Neural Billboards, преобразует полученную растеризацию в RGB-изображение с помощью U-Net рендерера, при этом регулируя альфа-канал для соответствия силуэту.

Подтверждение и перспективы интерактивного рендеринга аватаров

Разработанный метод демонстрирует впечатляющие результаты в области синтеза новых видов, позволяя создавать высококачественные изображения с ранее невиданных точек обзора. Достигнутый уровень реалистичности подтверждается показателями $PSNR = 25.65 \, dB$ и $SSIM = 0.958$ , что свидетельствует о значительном улучшении качества рендеринга по сравнению с существующими подходами. Такой синтез открывает возможности для создания иммерсивных виртуальных сред и реалистичных цифровых аватаров, позволяя пользователям взаимодействовать с контентом, как если бы они находились непосредственно в сцене.

Оценка предложенного метода на наборе данных Decaf, включающем многовидовые видеозаписи взаимодействия рук и лица, подтвердила его надежность и реалистичность. В ходе экспериментов удалось добиться снижения метрики LPIPS на 30% по сравнению с существующими подходами, что свидетельствует о значительном улучшении восприятия сгенерированных изображений. Данный результат демонстрирует способность системы достоверно воспроизводить сложные взаимодействия, необходимые для создания правдоподобных и захватывающих виртуальных сцен, что открывает перспективы для широкого применения в области интерактивных развлечений и коммуникаций.

Разработанная система InteractAvatar закладывает основу для создания по-настоящему захватывающих виртуальных опытов и открывает новые возможности в области персонализированного создания и управления аватарами. Благодаря скорости обработки в 19.2 миллисекунд на кадр при разрешении 1024×1024, система обеспечивает стабильную частоту кадров в 52 FPS, что позволяет добиться высокой плавности и реалистичности взаимодействия в виртуальной среде. Данная производительность делает InteractAvatar перспективным инструментом для широкого спектра приложений, включая интерактивные игры, виртуальную реальность, телеприсутствие и создание цифровых двойников, где важна не только визуальная достоверность, но и отзывчивость системы на действия пользователя.

NBAvatar демонстрирует способность к синтезу новых поз для дополнительных объектов, превосходя методы SplattingAvatar и GaussianAvatars в воспроизведении реалистичных деформаций и изменений внешнего вида, вызванных контактом, на данных из набора Decaf.

Исследование демонстрирует, что эффективное представление динамических сцен, таких как взаимодействие рук и лица в аватарах, требует инновационных подходов к визуализации. Авторы предлагают Neural Billboards — гибридную систему, сочетающую в себе преимущества явных и неявных методов. Этот подход позволяет достичь фотореалистичного рендеринга, преодолевая ограничения традиционных методов. Как заметил Эндрю Ын: «Мы находимся в моменте, когда данные и вычисления встречаются, что позволяет решать проблемы, которые ранее казались невозможными». Это высказывание особенно актуально для данной работы, поскольку она демонстрирует, как передовые методы машинного обучения могут быть использованы для создания убедительных и реалистичных цифровых аватаров, эффективно сочетая представление неявных текстур и явных примитивов.

Что дальше?

Представленная работа, безусловно, демонстрирует впечатляющий прогресс в области рендеринга аватаров, однако за красивой картинкой скрывается неизбежная сложность интерпретации. Каждое изображение, даже с реалистичной передачей взаимодействия рук и лица, лишь приближение к истине, запечатлённое в конкретный момент времени. Необходимо помнить, что текущие методы, хоть и эффективны, по-прежнему требуют значительных вычислительных ресурсов и чувствительны к качеству исходных данных. Очевидным направлением развития представляется поиск более компактных и эффективных представлений, способных сохранять детализацию без чрезмерной нагрузки на систему.

Внимательный анализ показывает, что фундаментальной проблемой остаётся обобщение. Создание аватара, способного достоверно имитировать широкий спектр эмоций и движений, требует не просто точного воспроизведения геометрии и текстур, но и понимания физиологических и психологических закономерностей, лежащих в основе человеческого поведения. Успех в этой области потребует интеграции методов машинного обучения с более глубокими знаниями о биомеханике и психологии.

Нельзя исключать и смелые эксперименты с новыми парадигмами рендеринга. Возможно, будущее за неявными представлениями, способными динамически адаптироваться к изменяющимся условиям освещения и перспективы. Или, быть может, нас ждёт возвращение к более простым, но элегантным решениям, основанным на принципах визуального восприятия и иллюзии реальности. В конечном итоге, задача состоит не в том, чтобы создать идеальную копию реальности, а в том, чтобы предложить убедительную и эмоционально насыщенную иллюзию.

Оригинал статьи: https://arxiv.org/pdf/2603.12063.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-13 10:58