Сжатие 3D-моделей: новый подход с использованием иерархических нейронных поверхностей

Автор: Денис Аветисян

Исследователи предложили инновационный метод сжатия 3D-сетей, основанный на иерархических неявных нейронных представлениях, обеспечивающий высокую степень сжатия и возможность кодирования атрибутов поверхности.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Для сжатия трёхмерных сеток предлагается метод, представляющий поверхность как обратную функцию сферической параметризации, моделируемой иерархической нейронной сетью неявного представления (INR), что позволяет достигать высококачественной реконструкции даже при значительном сжатии.

Представлена методика сжатия 3D-моделей, использующая иерархические неявные нейронные представления (INR) и сферическую параметризацию для достижения передовых показателей сжатия и реконструкции.

Несмотря на успехи неявных нейронных представлений в сжатии различных типов данных, эффективное кодирование треугольных сеток, широко используемых в индустрии, остается сложной задачей. В работе ‘Hierarchical Neural Surfaces for 3D Mesh Compression’ предложен новый метод построения компактных неявных нейронных представлений для многообразий нулевого рода, основанный на сферической параметризации и кодировании поля смещений. Иерархическая структура представления позволяет достичь передового соотношения между качеством реконструкции и степенью сжатия, обеспечивая генерацию сеток произвольного разрешения. Сможет ли данный подход стать основой для создания новых, более эффективных методов сжатия 3D-моделей и передачи данных в виртуальной реальности?

За гранью полигонов: Новый взгляд на представление геометрии

Традиционные методы представления трехмерных объектов, такие как использование полигональных сеток, сталкиваются с серьезными ограничениями в достижении высокой детализации и эффективной компрессии. Чем больше требуется детализация, тем больше полигонов необходимо использовать, что приводит к значительному увеличению объема хранимых данных и вычислительных затрат при рендеринге. Эта проблема особенно актуальна для сложных сцен и объектов, где реалистичное отображение требует миллионов или даже миллиардов полигонов. Более того, при масштабировании или изменении формы объекта, сетка может потерять свою гладкость и четкость, что негативно сказывается на визуальном качестве. Таким образом, ограничения традиционных сеток побуждают к поиску альтернативных методов представления геометрии, способных обеспечить более высокую детализацию при меньшем объеме данных и меньших вычислительных затратах.

Вместо традиционного представления трехмерных объектов посредством полигональных сеток, неявно заданные поверхности предлагают принципиально иной подход. Суть заключается в описании формы объекта функцией, которая для любой точки пространства определяет расстояние до ближайшей точки на поверхности — так называемая функция знакового расстояния (Signed Distance Function или SDF). Этот метод позволяет добиться непрерывной детализации, поскольку форма не ограничена дискретным набором полигонов. При увеличении масштаба или приближении к поверхности, детализация автоматически увеличивается, обеспечивая реалистичное изображение без потери качества. Кроме того, неявное представление позволяет эффективно сжимать данные, поскольку описание объекта сводится к компактной математической функции, а не к большому списку координат вершин и граней. Таким образом, использование SDF открывает возможности для создания масштабируемых и детализированных 3D-моделей, превосходящих традиционные методы по качеству и эффективности хранения данных.

Несмотря на потенциал неявного представления поверхностей с помощью функций знакового расстояния, прямое вычисление этих функций может быть чрезвычайно затратным с вычислительной точки зрения. Каждое определение точки в пространстве требует оценки функции $f(x, y, z) = 0$, что для сложных поверхностей может потребовать значительных ресурсов. Это стимулирует разработку эффективных неявных представлений, таких как октальные деревья или сплайны, которые позволяют аппроксимировать функцию знакового расстояния с меньшими вычислительными затратами. В результате, исследователи активно работают над методами, позволяющими добиться баланса между точностью представления и скоростью вычислений, чтобы сделать неявные поверхности пригодными для интерактивных приложений и обработки в реальном времени.

Предложенный метод успешно применяется для сжатия поверхностных карт, таких как текстуры.

Нейронные поверхности: Искусство неявных представлений

Неявные нейронные представления (INRs) используют многослойные персептроны (MLP) для отображения трехмерных координат в значение функции знакового расстояния (Signed Distance Function, SDF). В результате, поверхность объекта представляется не как набор дискретных точек или полигонов, а как непрерывная функция, где SDF определяет расстояние до поверхности в каждой точке пространства. Значение SDF положительно вне объекта, отрицательно внутри, и равно нулю на самой поверхности. Такой подход позволяет получить детализацию на любом разрешении, поскольку MLP аппроксимирует функцию SDF, а не хранит дискретную геометрию. $SDF(x, y, z)$ возвращает расстояние до ближайшей точки на поверхности объекта для заданной трехмерной координаты $(x, y, z)$.

Использование неявных нейронных представлений (INRs) позволяет добиться детализации на любом разрешении, однако, при прямом применении (naive INRs) требуется значительный объем памяти и вычислительных ресурсов. Это обусловлено тем, что для представления поверхности необходимо хранить веса многослойного персептрона (MLP) для каждой точки в пространстве. Чем выше требуемое разрешение и детализация, тем больше параметров необходимо хранить и обрабатывать, что приводит к экспоненциальному росту требований к памяти и времени вычислений. Например, для представления сцены с разрешением $256^3$ может потребоваться хранение миллиардов параметров, что делает прямое применение непрактичным для задач, требующих высокой детализации и масштабируемости.

Иерархические INR решают проблему высоких требований к памяти и вычислительным ресурсам путем рекурсивного деления пространства. На более высоких уровнях иерархии моделируется грубое представление сцены, а на последующих уровнях происходит детализация, позволяющая захватывать мелкие особенности. Такая организация позволяет эффективно кодировать геометрию с разной степенью детализации, используя меньше параметров по сравнению с наивными INR. Фактически, более грубые представления используются для обработки больших областей, а более детальные — только для локальных участков, где это необходимо, что снижает общую вычислительную сложность и объем памяти, требуемый для хранения представления сцены.

Предложенный метод обеспечивает точную реконструкцию оригиналов при широком диапазоне битрейтов, в отличие от QNDF, страдающего от артефактов квантования, и SNS, демонстрирующего искажения, а также QS-DRC, создающего сетки с очень низким разрешением.

Детализация формы: Поля смещения и сжатие данных

Неявные поля смещения (Implicit Displacement Fields) представляют собой метод построения детализированных моделей путем комбинирования грубого представления формы с выученным полем смещения. Вместо явного представления всей поверхности модели, этот подход оперирует с базовой геометрией и применяет к ней смещения, определяемые нейронной сетью. Поле смещения описывает векторное смещение каждой точки от базовой формы, позволяя добавлять сложные детали без увеличения объема хранимых данных, так как сохраняется только грубое представление и параметры нейронной сети, определяющей смещения. Это позволяет эффективно представлять сложные формы, используя значительно меньше памяти, чем традиционные методы представления поверхностей, такие как треугольные сетки с высоким разрешением.

Метод использования полей смещения в сочетании с нейронными полями смещения (Neural Displacement Fields) позволяет эффективно обучать нейронную сеть для моделирования детализированной геометрии. Вместо непосредственного представления всей поверхности, нейронная сеть изучает поле смещений, которое добавляется к базовой, грубой форме. Это значительно снижает вычислительную нагрузку и объем необходимой памяти, поскольку сеть оперирует лишь небольшим количеством параметров, определяющих смещения точек поверхности.

Для снижения объема памяти, необходимого для хранения весов нейронной сети, используемой в неявных полях смещения, применяются методы квантизации и адаптивной выборки. Квантизация уменьшает точность представления весов, снижая их размер без существенной потери качества реконструкции. Адаптивная выборка позволяет фокусироваться на наиболее значимых участках данных, уменьшая количество вычислений и объем хранимых данных. Комбинация этих методов позволяет достичь времени декодирования менее 100 мс для сетки, содержащей 327 тысяч вершин, что критически важно для интерактивных приложений и работы в реальном времени.

Проверка и производительность: Восстанавливая реальность

Восстановление поверхностей из неявных нейронных представлений (Implicit Neural Representations) становится возможным благодаря алгоритмам, таким как Marching Cubes. Этот метод преобразует неявную функцию, описывающую поверхность, в полигональную сетку, состоящую из треугольников. Marching Cubes анализирует пространство, определяя точки, где значение неявной функции пересекает заданный порог, и строит треугольники между этими точками, формируя визуально воспринимаемую поверхность. Такой подход позволяет эффективно отображать сложные геометрические формы, закодированные в виде неявных функций, на экране или использовать их для дальнейшей обработки в графических приложениях. Точность и детализация реконструированной поверхности напрямую зависят от разрешения сетки, создаваемой алгоритмом, и от качества исходного неявного представления.

Оценка качества реконструированных поверхностей осуществляется посредством использования метрик, таких как PSNR (Peak Signal-to-Noise Ratio) и SSIM (Structural Similarity Index Measure). Эти показатели позволяют количественно оценить степень соответствия между реконструированной моделью и эталонной (ground truth), выступающей в качестве идеального образца. PSNR измеряет пиковое отношение сигнал/шум, отражая уровень искажений, в то время как SSIM оценивает структурное сходство между изображениями, учитывая особенности восприятия человеческим глазом. Комбинированное использование этих метрик позволяет получить всестороннюю оценку качества реконструкции, охватывающую как количественные, так и перцептивные аспекты, что критически важно для приложений, где визуальное сходство имеет первостепенное значение.

Предложенный метод демонстрирует эффективность сжатия текстур, сопоставимую с результатами, достигаемыми алгоритмом JPEG при параметре качества qp=50, при сжатии текстурных карт разрешением 1024×1024. При этом, наблюдается незначительное снижение объема занимаемой памяти и, что особенно важно, исключается необходимость хранения UV-параметров, что существенно упрощает процесс обработки. Время кодирования, измеренное на графическом ускорителе NVIDIA RTX 2070, составляет 25-35 минут, что соответствует показателям других методов, основанных на Implicit Neural Representations (INR), и подтверждает практическую применимость данной технологии.

В статье описывается элегантный способ сжатия 3D-мешей с помощью иерархических неявных нейронных представлений. Авторы, конечно, уверены, что создали нечто революционное. Однако, опыт подсказывает: любое новшество рано или поздно обрастёт техническим долгом. Как точно заметил Карл Фридрих Гаусс: «Если бы другие знали, сколько всего я знаю, они бы сочли меня сумасшедшим». И в данном случае, сложно предсказать, какие подводные камни возникнут при попытке масштабировать этот метод на действительно сложные модели. Адаптивная выборка и сжатие атрибутов поверхности — всё это прекрасно на бумаге, но реальная жизнь, как всегда, внесёт свои коррективы. Посмотрим, как долго продлится эта иллюзия совершенства.

Что Дальше?

Представленная работа, безусловно, демонстрирует умение сжимать геометрию. Однако, рано или поздно, любой алгоритм столкнётся с тем, что «красивые» mesh-и будут генерироваться не машинами, а людьми, которые любят детали, случайные шумы и другие вещи, не поддающиеся элегантной компрессии. Неизбежно возникнет потребность в «ручной» оптимизации, в тонкой настройке, что сведёт на нет все автоматические достижения. Забудьте про state-of-the-art — скоро появятся сценарии, где простая топология будет предпочтительнее «умных» представлений.

Попытки сжимать атрибуты поверхностей — это, конечно, хорошо, но не стоит забывать, что продюсер всегда найдёт способ добавить ещё один слой текстур, ещё одну деталь, которая сломает любую оптимизацию. Вместо того, чтобы усложнять архитектуру, возможно, стоит задуматься о том, чтобы просто предоставить инструменты для более эффективного «ручного» редактирования. Нам не нужно больше микросервисов для рендеринга — нам нужно меньше иллюзий, что всё решится само собой.

В конечном итоге, данное направление — лишь ещё один шаг в бесконечном цикле оптимизаций и усложнений. Каждая «революционная» технология завтра станет техдолгом. И пусть этот долг будет красивым, но он всё равно останется долгом. Вместо того чтобы гнаться за идеальной компрессией, возможно, стоит принять тот факт, что идеала не существует.

Оригинал статьи: https://arxiv.org/pdf/2512.15985.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-21 22:44