Сборка из осколков: как генеративные модели помогают воссоздавать 3D-объекты

Автор: Денис Аветисян

Новый подход объединяет фрагментированные 3D-модели и завершает их форму, используя возможности генеративных моделей.

Разработан унифицированный подход к трехмерной сборке и генерации цельных форм, в котором две взаимодействующие ветви - ветвь сборки, предсказывающая позу каждой части посредством потокового соответствия в <span class="katex-eq" data-katex-display="false">SE(3)</span>, и ветвь генерации, синтезирующая полную форму также с помощью потокового соответствия - объединяются адаптером, обеспечивающим двунаправленный обмен информацией, при этом обучение осуществляется в два этапа: сначала изучается сборка, а затем совместно настраиваются обе задачи. — Разработан унифицированный подход к трехмерной сборке и генерации цельных форм, в котором две взаимодействующие ветви — ветвь сборки, предсказывающая позу каждой части посредством потокового соответствия в $SE(3)$ , и ветвь генерации, синтезирующая полную форму также с помощью потокового соответствия — объединяются адаптером, обеспечивающим двунаправленный обмен информацией, при этом обучение осуществляется в два этапа: сначала изучается сборка, а затем совместно настраиваются обе задачи.

В статье представлена Crag — инновационная система, сочетающая сборку 3D-объектов и генерацию полной формы посредством совместной архитектуры flow matching.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Существующие методы 3D-сборки зачастую рассматривают задачу как простую оценку позы, оперируя лишь жесткими преобразованиями наблюдаемых частей. В данной работе, ‘CRAG: Can 3D Generative Models Help 3D Assembly?’, предлагается принципиально иной подход, вдохновленный тем, как человек одновременно рассуждает о структуре и форме при сборке объектов. Мы демонстрируем, что совместное решение задач сборки и генерации формы не только возможно, но и взаимно усиливает точность и надежность. Предложенная архитектура CRAG, основанная на совместном обучении с использованием flow matching, позволяет не только предсказывать позы фрагментов, но и генерировать правдоподобные завершенные формы, даже при наличии недостающих частей — сможет ли этот подход открыть новые горизонты в робототехнике и 3D-моделировании?

Расколотая Реальность: Вызовы 3D-Реконструкции

Восстановление трехмерных объектов по фрагментам представляет собой основополагающую задачу в таких областях, как археология и медицинская визуализация, однако этот процесс часто осложняется неполнотой или зашумленностью исходных данных. Археологи, стремясь воссоздать древние артефакты по сохранившимся осколкам, и медики, реконструирующие органы по изображениям, сталкиваются с необходимостью преодоления пробелов и погрешностей в информации. Неполные данные могут возникать из-за естественного разрушения объектов с течением времени, утраты фрагментов при раскопках или ограничений в технологиях сканирования и визуализации. Шум, в свою очередь, может быть вызван различными факторами, включая помехи при сборе данных, низкое разрешение изображений или артефакты обработки. Преодоление этих сложностей требует разработки надежных и эффективных методов, способных восстанавливать целостную трехмерную структуру объекта, даже при наличии значительных пробелов и неточностей в исходных данных.

Традиционные методы трехмерной реконструкции, сталкиваясь с фрагментированными объектами, испытывают значительные трудности, обусловленные как сложностью формы, так и необходимостью восстановления недостающих частей. Восстановление целого из фрагментов требует не просто сопоставления известных элементов, но и генерации правдоподобных продолжений, что особенно сложно при наличии шума или неполноты данных. Существующие алгоритмы часто демонстрируют неустойчивость при работе с нерегулярными или сильно поврежденными формами, приводя к неточным или нереалистичным результатам. Проблема усугубляется тем, что большинство подходов полагаются на заранее заданные модели или ограничения, которые могут быть неприменимы к объектам сложной геометрии или неизвестной структуры, что ограничивает их универсальность и точность.

Для эффективного решения задачи восстановления трехмерных объектов по фрагментам требуется принципиально новый подход, объединяющий в себе этапы сборки и логического завершения недостающих частей. Современные методы часто сталкиваются с трудностями при работе со сложными формами и неспособны надежно восполнить пробелы в данных. Разработанная платформа стремится преодолеть эти ограничения, одновременно анализируя взаимосвязь между фрагментами и используя знания о типичных характеристиках целых объектов. Такой симбиоз позволяет не просто механически соединять части, но и интеллектуально достраивать недостающие элементы, основываясь на вероятностных моделях и принципах симметрии, что значительно повышает точность и реалистичность реконструкции даже при высокой степени фрагментации и наличии шумов.

Алгоритм Crag способен одновременно собирать наблюдаемые части объекта и синтезировать правдоподобную полную форму, при этом использование эталонных изображений дополнительно повышает точность реконструкции на наборах данных PartNeXt, Breaking Bad и MorphoSource.

Crag: Унифицированный Фреймворк для Целостной Реконструкции

Crag представляет собой унифицированное решение для реконструкции 3D-объектов, основанное на совместном подходе, объединяющем сборку фрагментов и генерацию цельной формы. В отличие от традиционных методов, которые рассматривают эти задачи раздельно, Crag интегрирует их в единую структуру, позволяя информации о процессе сборки влиять на генерацию полной формы и наоборот. Такой совместный подход позволяет преодолеть ограничения, присущие раздельным решениям, и добиться более точной и полной реконструкции, особенно в случаях неполных или зашумленных данных. Реконструкция осуществляется путем одновременной оптимизации как положения фрагментов, так и латентного представления целой формы, что обеспечивает согласованность и целостность результирующей модели.

В основе Crag лежит моделирование непрерывных потоков, использующее метод шумоподавления (denoising) для фрагментов трехмерной сцены и латентных представлений целой формы. Этот подход предполагает постепенное удаление шума из случайно инициализированных фрагментов и латентов, направляя их к правдоподобной реконструкции. Процесс denoising осуществляется посредством обучения модели предсказывать и удалять шум на каждом шаге, что позволяет Crag достичь устойчивой реконструкции даже при наличии неполных или зашумленных входных данных. Использование непрерывных потоков обеспечивает плавный переход между различными состояниями реконструкции и позволяет модели исследовать пространство возможных решений более эффективно.

В архитектуре Crag лежит модуль «Совместного Адаптера» (Joint Adapter), обеспечивающий двунаправленный обмен информацией между ветвью сборки (assembly) и ветвью генерации целой формы (whole-shape generation). Этот модуль позволяет передавать признаки, полученные в процессе анализа фрагментов и их сборки, в генеративную модель, что улучшает качество генерируемой формы. В обратном направлении, генеративная модель предоставляет информацию о глобальной структуре, помогая уточнить позы фрагментов и повысить надежность процесса сборки. Такая двусторонняя коммуникация значительно улучшает общую производительность системы реконструкции по сравнению с подходами, использующими отдельные ветви без взаимодействия.

Эксперименты на наборах данных PartNeXt, Breaking Bad и MorphoSource показали, что метод Crag обеспечивает более когерентную сборку и полные формы как без, так и с использованием опорных изображений, превосходя GARF, RPF и Assembler в точном выравнивании деталей и соответствии результирующих форм эталонным моделям.

Использование Априорных Знаний с TripoSG и Потоком в Латентном Пространстве

Crag использует предварительно обученную генеративную модель TripoSG, что позволяет улучшить качество реконструкции за счет использования вариационного автоэнкодера (VAE) и геометрических априорных знаний. VAE в составе TripoSG обеспечивает эффективное кодирование и декодирование данных, а встроенные геометрические априорные знания, основанные на представлении формы, направляют процесс реконструкции, уменьшая шум и повышая точность получаемых результатов. Интеграция TripoSG позволяет Crag извлекать выгоду из существующих знаний о формах, что снижает потребность в большом количестве данных для обучения и ускоряет процесс реконструкции.

В архитектуре TripoSG, вариационный автоэнкодер (VAE) использует представление формы на основе TSDF (Truncated Signed Distance Function) для кодирования геометрии объектов. TSDF позволяет эффективно представлять поверхности и их внутреннюю структуру. Использование TSDF в VAE облегчает создание векторных представлений фрагментов объектов, которые затем встраиваются в общее латентное пространство. Это обеспечивает согласованную обработку и позволяет модели оперировать различными частями сцены в едином координационном пространстве, что необходимо для последующего моделирования непрерывной эволюции формы и реконструкции целых объектов.

В основе Crag лежит концепция “Потока в Латентном Пространстве” (Latent Space Flow), позволяющая моделировать непрерывную эволюцию представления целой формы. Этот подход обеспечивает реалистичную генерацию за счет представления формы как динамического процесса, а не статического объекта. Вместо дискретных шагов или отдельных фрагментов, форма рассматривается как траектория в латентном пространстве, что позволяет создавать плавные и правдоподобные изменения геометрии. Непрерывность этой эволюции достигается за счет моделирования скоростных полей, определяющих движение в латентном пространстве, что критически важно для процесса шумоподавления и генерации детализированных трехмерных моделей.

В Crag для моделирования непрерывной эволюции представлений целых объектов используются сети сопоставления потоков (Flow Matching Networks). Эти сети предсказывают поля скоростей, определяющие направление и величину изменений в латентном пространстве. Полученные поля скоростей критически важны для процесса шумоподавления (denoising), поскольку позволяют последовательно преобразовывать случайный шум в когерентное представление объекта. Эффективность данного подхода заключается в том, что сети обучаются прогнозировать векторное поле, направляющее процесс генерации, обеспечивая плавный и реалистичный переход от шума к целевому объекту, а также повышая качество реконструируемых форм.

При работе с неоднозначными референсными изображениями в PartNeXt, использование уровневых признаков позволяет частично разрешить неоднозначность и получить более точную форму, как демонстрируется сравнением TripoSG и Crag с эталонными данными.

Надежная Валидация и Широкая Применимость

Исследования показали, что разработанная система Crag демонстрирует надежные возможности по восстановлению фрагментированных объектов, что было подтверждено при оценке на разнообразных наборах данных, включающих PartNeXt, Breaking Bad, MorphoSource и FRACTURA. Использование этих различных наборов, охватывающих широкий спектр объектов и типов повреждений, позволило всесторонне оценить устойчивость алгоритма к различным условиям и сложностям. Полученные результаты свидетельствуют о способности системы эффективно реконструировать объекты даже при значительном повреждении и фрагментации, что открывает перспективы для ее применения в различных областях, от археологии и палеонтологии до медицинской визуализации и робототехники.

При оценке работы алгоритма на наборе данных PartNeXt были достигнуты показатели точности определения частей $66.74$ % и расстояния Чемфера $5.17$ единиц. Данные метрики свидетельствуют о способности системы эффективно восстанавливать фрагментированные объекты, корректно идентифицируя и сопоставляя отдельные части. Точность определения частей указывает на долю правильно собранных элементов, в то время как расстояние Чемфера отражает среднее расстояние между восстановленной поверхностью и исходным объектом. Полученные результаты демонстрируют надежность алгоритма в задачах реконструкции сложных форм и служат отправной точкой для дальнейшей оптимизации и расширения его возможностей.

В ходе тестирования на наборе данных Breaking Bad, разработанная система Crag продемонстрировала выдающиеся результаты, достигнув точности распознавания частей (Part Accuracy, PA) в 92.03%. При этом, значение метрики Chamfer Distance, характеризующей отклонение восстановленной модели от оригинала, составило всего 0.52. Такой показатель свидетельствует о высокой степени соответствия и детализации восстановленных фрагментов, что подчеркивает эффективность предложенного подхода к реконструкции сложных объектов и его потенциал для применения в различных областях, где требуется точное воссоздание формы и структуры.

Полученные результаты демонстрируют значительный прорыв в точности восстановления фрагментированных объектов. В частности, новая методика превосходит существующие подходы на наборе данных PartNeXt на впечатляющие 91.4% по показателю Part Accuracy. Это означает, что система способна более эффективно и корректно идентифицировать и соединять отдельные части сломанных объектов, обеспечивая значительно более полное и точное восстановление исходной формы. Подобный прирост точности открывает новые возможности для решения задач в различных областях, от археологии и палеонтологии до медицинской визуализации и робототехники.

Особенностью разработанного фреймворка является его способность к обобщению, что подтверждается успешной работой с разнообразными наборами данных, включая PartNeXt, Breaking Bad, MorphoSource и FRACTURA, а также с различными типами переломов. Данная универсальность существенно расширяет область применения системы, позволяя эффективно решать задачи реконструкции в самых разных областях — от археологии и палеонтологии, где требуется восстановление фрагментированных артефактов, до медицинской визуализации и робототехники, где необходимо точное воссоздание формы объектов по их поврежденным частям. Способность адаптироваться к различным условиям и типам данных делает систему мощным инструментом для широкого круга исследователей и специалистов, работающих с задачами трехмерной реконструкции.

В основе повышения точности реконструкции, достигаемой данной системой, лежит использование функций знаковых расстояний (Signed Distance Functions, SDF). Эти функции эффективно описывают геометрию объектов, определяя расстояние от любой точки пространства до поверхности объекта с учетом знака — положительное значение указывает на нахождение вне объекта, отрицательное — внутри. Такое представление позволяет более точно моделировать сложные формы и границы, особенно в случаях фрагментированных или неполных данных. В отличие от традиционных методов, которые могут испытывать трудности с воссозданием точной геометрии при наличии шума или пропусков, SDF обеспечивают устойчивое и надежное представление формы, что, в свою очередь, приводит к значительному улучшению качества реконструкции и повышению детализации воссоздаваемых моделей.

Полученные результаты демонстрируют, что разработанная система Crag представляет собой мощный инструмент, находящий применение в самых разных областях. От восстановления фрагментированных артефактов в археологии и палеонтологии, где точное воссоздание формы является ключевым для изучения прошлого, до продвинутой медицинской визуализации, позволяющей детально анализировать структуры костей и тканей, — возможности Crag значительно расширяют горизонты исследований. Более того, высокая точность и надежность системы делают ее перспективной для использования в робототехнике, где требуется быстрое и точное распознавание и реконструкция объектов в реальном времени. Таким образом, Crag открывает новые перспективы для решения сложных задач в различных научных и технологических областях, способствуя развитию инноваций и углублению знаний.

Алгоритм Cragon FRACTURA успешно демонстрирует устойчивость к реальным повреждениям, обрабатывая отсканированные фрагменты с визуально выделенными областями повреждений.

Представленная работа демонстрирует элегантное решение сложной задачи — одновременной сборки фрагментированных трехмерных объектов и генерации их полных форм. Подобный подход, объединяющий реассемблирование и генерацию в единой архитектуре, требует глубокого понимания латентного пространства и умения эффективно использовать возможности Transformer Networks. Как однажды заметил Янн ЛеКун: «Машинное обучение — это, по сути, программирование с данными, а не с инструкциями». Эта фраза особенно точно отражает суть представленного исследования, где ключевую роль играет не жесткое кодирование правил сборки, а обучение модели на большом объеме данных для выявления закономерностей и формирования целостных объектов. Эффективное использование Flow Matching позволяет добиться устойчивости и точности в сложных сценариях, что подчеркивает гармонию между формой и функцией в машинном обучении.

Что Дальше?

Представленная работа, несомненно, демонстрирует элегантность подхода к сложной задаче — объединению фрагментированных трехмерных объектов и одновременному завершению их формы. Однако, как часто бывает, решение одной проблемы неизбежно обнажает другие. Совершенствование архитектуры совместного обучения, безусловно, важно, но истинный вызов кроется в расширении области применимости. Насколько хорошо данная система справится с объектами, обладающими сложной внутренней структурой или подверженными значительным деформациям? Стремление к совершенству алгоритма не должно затмевать необходимость в более разнообразных и реалистичных наборах данных.

Особое внимание заслуживает вопрос о латентном пространстве. Какова истинная глубина и выразительность этого пространства? Возможно ли использование его для не только восстановления формы, но и для предсказания функциональности объекта или даже для генерации новых, ранее не существовавших конструкций? Или же это всего лишь иллюзия понимания, красивая, но поверхностная?

В конечном счете, ценность любой системы определяется не ее способностью решать конкретную задачу, а ее способностью вдохновить на новые вопросы. И в этом смысле, представленная работа, несомненно, заслуживает внимания. Остается лишь надеяться, что последующие исследования будут столь же элегантными и, главное, честными в оценке своих возможностей и ограничений.

Оригинал статьи: https://arxiv.org/pdf/2602.22629.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-02 00:25