Автор: Денис Аветисян
Новый подход позволяет воссоздавать объемные модели исторических иллюстраций, открывая уникальные возможности для изучения и взаимодействия с культурным наследием.
Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.
Купить акции "голубых фишек"
Представлен полуавтоматический конвейер на основе нейронных сетей и экспертной доработки для 3D-реконструкции миниатюр средневековых рукописей.
Воспроизведение и изучение средневековых миниатюр традиционно затруднено из-за их двухмерного формата и хрупкости оригиналов. В данной работе, посвященной ‘A Semi-Automated Framework for 3D Reconstruction of Medieval Manuscript Miniatures’, представлен полуавтоматизированный подход к преобразованию изображений миниатюр в трехмерные цифровые модели. Разработанный конвейер, сочетающий нейронные сети и экспертную доработку, позволяет создавать качественные модели сбалансируя геометрическую точность и топологическое качество, что открывает новые возможности для интерактивной визуализации и тактильного изучения. Сможет ли данная методика существенно расширить доступ к культурному наследию и способствовать более глубокому пониманию средневекового искусства?
Раскрывая прошлое: вызовы цифрового сохранения средневекового искусства
Миниатюры средневековых рукописей представляют собой бесценное культурное наследие, однако традиционные методы их фиксации — фотографирование и ручное обведение — отличаются значительной трудоемкостью и высокой стоимостью. Эти подходы не позволяют в полной мере передать тактильные качества оригинала, включая рельефность и фактуру пигментов, что затрудняет детальное изучение и консервацию. Кроме того, процесс создания точных копий вручную занимает много времени, ограничивая доступ к этим произведениям искусства для широкой исследовательской аудитории и потенциальных пользователей, заинтересованных в цифровом наследии.
Существующие методы трехмерной реконструкции часто оказываются неспособны достоверно передать тончайшие детали и нюансы поверхности средневековых миниатюр. Проблема заключается в хрупкости материалов и сложности рельефа, что затрудняет получение четких данных при сканировании. Традиционные подходы, полагающиеся на обработку больших массивов данных, нередко приводят к потере мельчайших элементов декора, а также к искажению текстуры и цветовой гаммы. В результате, создаваемые трехмерные модели не позволяют в полной мере оценить мастерство художника и не могут служить надежным инструментом для искусствоведческих исследований или создания интерактивных образовательных ресурсов, ограничивая доступ к этому ценному культурному наследию.
Остро ощущается потребность в автоматизированных, высокоточных трехмерных моделях средневековых рукописных миниатюр. Традиционные методы документирования, такие как фотография и ручное копирование, оказываются недостаточными для полноценного сохранения и изучения этих хрупких произведений искусства. Создание цифровых двойников с сохранением мельчайших деталей рельефа и текстуры поверхности позволит не только обеспечить долгосрочную сохранность культурного наследия, но и откроет новые возможности для научных исследований. Такие модели позволят ученым детально изучать технику исполнения миниатюр, исследовать пигменты и материалы, а также проводить виртуальную реставрацию поврежденных фрагментов. Кроме того, трехмерные модели открывают перспективы для создания интерактивных экспозиций и образовательных программ, делая средневековое искусство доступным для широкой публики и позволяя ощутить его красоту и значимость в новом формате.

От изображения к форме: новый конвейер 3D-реконструкции
В основе нашего конвейера лежит автоматизированное преобразование двумерных изображений в трехмерные модели с использованием предварительно обученных моделей (Foundation Models) и методов Image-to-3D. Данный подход позволяет существенно сократить время, затрачиваемое на начальном этапе создания 3D-модели, за счет автоматизации процесса, который традиционно требовал ручного моделирования. Используемые Foundation Models обеспечивают обобщение и адаптацию к различным типам изображений, а методы Image-to-3D реконструируют трехмерную геометрию на основе анализа входных данных. Автоматизация первичного преобразования изображений в 3D-модели является ключевым элементом повышения эффективности всего конвейера.
Модель SAM (Segment Anything Model) играет ключевую роль в точном выделении фигур на изображениях, используемых для последующей 3D-реконструкции. SAM обеспечивает автоматическую сегментацию объектов, позволяя эффективно отделять целевые фигуры от фона и других элементов изображения, даже в сложных условиях освещения и при наличии перекрытий. Высокая точность сегментации, обеспечиваемая SAM, критически важна для создания корректных 3D-моделей, поскольку ошибки в сегментации напрямую влияют на геометрическую точность и визуальную достоверность результирующей 3D-реконструкции. Это позволяет значительно снизить необходимость ручной корректировки и повысить эффективность всего процесса моделирования.
В рамках оценки эффективности предложенного конвейера 3D-реконструкции был проведен сравнительный анализ нескольких современных методов преобразования 2D-изображений в 3D-модели. В частности, были протестированы алгоритмы TripoSR, SF3D и Wonder3D, каждый из которых имеет свои особенности в подходах к реконструкции геометрии и текстурированию. Оценка производилась на основе метрик точности геометрии, качества текстур и времени обработки, что позволило определить наиболее подходящие методы для автоматизации начального этапа моделирования и дальнейшей интеграции в производственный процесс. Результаты сравнительного анализа позволили выбрать оптимальную комбинацию алгоритмов для достижения требуемого уровня детализации и эффективности.
Для повышения качества и детализации результирующих 3D-моделей в конвейере предусмотрена стадия экспертной доработки. Специалисты используют программное обеспечение, такое как ZBrush и Substance Painter, для исправления артефактов, возникающих в процессе автоматизированной реконструкции, и для ручной детализации поверхностей. Этот этап позволяет повысить визуальную достоверность моделей, добавить мелкие детали, улучшить текстуры и добиться фотореалистичного рендеринга. В частности, ZBrush используется для скульптинга и моделирования, а Substance Painter — для создания и применения высококачественных текстур и материалов.
Внедрение данного конвейера позволило сократить время производства 3D-моделей приблизительно на 48% по сравнению с полностью ручным моделированием. Это снижение достигается за счет автоматизации первичной конвертации 2D-изображений в 3D-формы с использованием базовых моделей и методов Image-to-3D. Сокращение времени обусловлено уменьшением затрат на ручную обработку и моделирование, что позволяет быстрее создавать итерации и выпускать готовые модели.

Оценка достоверности: метрики и анализ 3D-реконструкций
Для оценки геометрической точности и визуального реализма реконструированных 3D-моделей используется комплекс метрик, включающий Silhouette IoU (Intersection over Union, оценивающее перекрытие силуэтов), LPIPS (Learned Perceptual Image Patch Similarity, измеряющее перцептуальное сходство изображений), CLIP Score (оценивающий соответствие между текстом и изображением, что отражает семантическую точность реконструкции) и процент водонепроницаемых (watertight) мешей, характеризующий целостность геометрии модели. Silhouette IoU измеряется как отношение площади пересечения силуэтов реконструированной и оригинальной моделей к площади их объединения. LPIPS использует глубокую сверточную нейронную сеть для вычисления различий в восприятии между изображениями. CLIP Score позволяет оценить, насколько хорошо реконструированная модель соответствует описанию, данному в текстовом запросе. Процент водонепроницаемых мешей определяет долю полигонов, образующих замкнутую поверхность без разрывов, что важно для последующей обработки и использования модели.
Для оценки перцептивного качества 3D-реконструкций проводятся исследования с использованием метода двух альтернатив (Two-Alternative Forced Choice, 2AFC). В рамках этих исследований участникам предъявляются пары 3D-моделей, полученных разными методами, и предлагается выбрать модель, которая, по их мнению, лучше соответствует исходному объекту. Статистический анализ предпочтений участников позволяет количественно оценить, насколько реконструированные модели соответствуют человеческому восприятию и определить, какой метод реконструкции обеспечивает наилучшие результаты с точки зрения визуального качества. В проведенных исследованиях, Hi3DGen продемонстрировал предпочтение в 83.6% случаев на датасете Vatican и в 84.8% случаев на датасете Monteprandone.
Коэффициент диапазона глубины (Depth Range Ratio) представляет собой метрику, оценивающую способность 3D-модели воспроизводить вариации глубины, присутствующие в исходном произведении искусства. Он рассчитывается как отношение разницы между максимальной и минимальной глубиной реконструированной модели к аналогичной разнице в исходных данных. Более высокое значение коэффициента указывает на лучшую способность модели захватывать и воспроизводить полную глубину оригинального объекта, что важно для сохранения его визуальной точности и реалистичности. Эта метрика особенно полезна для оценки качества реконструкций сложных объектов с выраженными перепадами высоты и детализированной поверхностью.
Результаты количественной оценки показали, что модель Hi3DGen достигает значения CLIP Score 0.744 при реконструкции фигур из набора Monteprandone и 0.689 для фигур из набора Vatican. В свою очередь, модель SF3D демонстрирует показатель Silhouette IoU в 0.751 для Monteprandone и 0.832 для Vatican. Эти метрики позволяют оценить соответствие реконструированных моделей исходным данным, где CLIP Score отражает семантическое сходство, а Silhouette IoU — геометрическую точность.
В процессе реконструкции 3D-моделей с использованием SAM 3D наблюдается формирование полностью замкнутых (водонепроницаемых) сеток в диапазоне от 68% до 71%, в зависимости от используемого набора данных. Этот показатель определяет долю поверхности модели, не имеющей разрывов или отверстий, что критически важно для последующего использования модели в приложениях, требующих физически корректного представления геометрии, таких как 3D-печать или симуляция. Вариативность процента замкнутости указывает на чувствительность алгоритма к характеристикам конкретного набора данных, включая сложность геометрии и качество исходных данных.
По результатам пользовательских исследований, Hi3DGen демонстрирует выраженное предпочтение среди пользователей при сравнении с другими методами 3D-реконструкции. На датасете Vatican, 83.6% респондентов выбрали модели, сгенерированные Hi3DGen, в то время как на датасете Monteprandone этот показатель составил 84.8%. Данные результаты указывают на субъективно воспринимаемое качество и визуальную привлекательность моделей, созданных Hi3DGen, с точки зрения пользователей.

Расширение доступа: иммерсивные возможности и перспективы применения
Созданные трехмерные модели позволяют организовать виртуальные выставки, предоставляя возможность аудитории исследовать иллюминированные рукописи с беспрецедентной детализацией. Благодаря цифровому воссозданию, каждый свиток, каждая миниатюра становится доступной для изучения под любым углом, позволяя рассмотреть мельчайшие нюансы, невидимые при обычном просмотре. Такой подход не только расширяет доступ к культурному наследию, но и открывает новые горизонты для исследований, позволяя ученым и любителям искусства глубже погрузиться в мир средневековой книжной культуры и оценить мастерство древних мастеров. Виртуальные выставки, основанные на этих моделях, преодолевают географические ограничения и предлагают уникальный опыт взаимодействия с историческими артефактами.
Создание тактильных трехмерных копий средневековых рукописей открывает уникальную возможность для людей с нарушениями зрения прикоснуться к культурному наследию. Эти модели, воссозданные с высокой степенью детализации, позволяют изучать сложные орнаменты, миниатюры и текст, ранее недоступные для тактильного восприятия. Исследования показывают, что подобный подход не только расширяет доступ к искусству, но и способствует более глубокому эмоциональному и интеллектуальному вовлечению, позволяя ощутить красоту и сложность этих исторических артефактов через осязание. Данная технология формирует принципиально новый уровень инклюзивности в сфере культуры и образования, стирая границы между зрячими и слабовидящими пользователями.
Интеграция с технологиями WebXR и дополненной реальности (AR) открывает принципиально новые возможности для интерактивного обучения и изучения культурного наследия. Теперь пользователи могут не просто рассматривать оцифрованные манускрипты, но и погружаться в трехмерные реконструкции их создания, виртуально посещая скриптории и взаимодействуя с артефактами, словно находясь в прошлом. Технологии AR позволяют накладывать цифровые изображения манускриптов на реальный мир, создавая эффект присутствия и обогащая опыт изучения. Такой подход не только повышает вовлеченность аудитории, но и позволяет глубже понять контекст и значение этих бесценных исторических документов, делая культурное наследие доступным для более широкой аудитории и стимулируя новые формы исследований.
Работа, направленная на сохранение и расширение доступа к ценнейшим артефактам, вносит значительный вклад в формирование более инклюзивной и вовлекающей культурной среды. Благодаря цифровому моделированию и новым технологиям, такие произведения искусства, как иллюминированные рукописи, становятся доступными для широкой аудитории, невзирая на географические ограничения или физические возможности. Данный подход не только обеспечивает долгосрочное сохранение культурного наследия, но и способствует развитию более глубокого понимания и appreciation этих артефактов, открывая новые возможности для образовательных инициатив и культурного обмена. Предоставляя возможность интерактивного взаимодействия с прошлым, создаются условия для более осознанного и уважительного отношения к мировому культурному наследию, что способствует формированию более толерантного и инклюзивного общества.
Представленный подход к трехмерной реконструкции миниатюр средневековых рукописей демонстрирует силу визуализации скрытых закономерностей. Как и микроскоп, позволяющий увидеть микромир, разработанная система Hi3DGen преобразует двумерные изображения в трехмерные модели, раскрывая детали, ранее недоступные для непосредственного наблюдения. Геффри Хинтон однажды заметил: «Принятие риска — это ключ к прогрессу». В данном исследовании, сочетание нейронных сетей и экспертной доработки — это осознанный риск, позволивший значительно сократить время производства моделей и при этом сохранить историческую достоверность, открывая новые интерактивные возможности для изучения культурного наследия. Модель выступает инструментом, позволяющим исследователям глубже проникнуть в мир средневекового искусства.
Что дальше?
Представленный подход, несомненно, открывает путь к более глубокому взаимодействию с визуальным наследием средневековья. Однако, следует признать, что автоматизация, даже подкрепленная экспертной оценкой, пока не способна полностью воспроизвести нюансы художественного видения мастера. Задача точного воссоздания трёхмерной формы по двухмерному изображению остается, по сути, проблемой интерпретации — и в этом заключается ирония. Система Hi3DGen демонстрирует потенциал ускорения процесса, но истинная ценность, вероятно, заключается не в скорости, а в возможности подвергать исторические артефакты новым формам анализа.
Будущие исследования, несомненно, потребуют более тщательной проработки алгоритмов обработки сложных текстур и детализации, особенно в контексте фрагментарности и повреждений средневековых миниатюр. Интересно было бы рассмотреть возможность интеграции методов машинного обучения, способных выявлять и восстанавливать утраченные элементы композиции, основываясь на анализе аналогичных изображений. Очевидным направлением является расширение базы данных миниатюр для обучения нейронных сетей, что позволит повысить точность и универсальность подхода.
В конечном счете, успех подобных проектов будет определяться не только технологическими достижениями, но и готовностью исследователей и кураторов к принятию новых инструментов и методов работы. Задача состоит не в том, чтобы заменить традиционные подходы, а в том, чтобы обогатить их, предоставив возможность взглянуть на прошлое под новым углом. Понимание системы — это исследование её закономерностей, и визуализация — лишь один из способов проникнуть в суть.
Оригинал статьи: https://arxiv.org/pdf/2604.08610.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Искусственный интеллект, ориентированный на человека: новый подход
- Российский рынок в зоне турбулентности: рубль, ставки и новые риски (10.04.2026 01:32)
- Рост облигаций и геополитика: что ждет инвесторов в апреле? (08.04.2026 17:32)
- Realme Narzo 70 ОБЗОР: плавный интерфейс, большой аккумулятор, замедленная съёмка видео
- Proton только что запустил альтернативу Google Workspace и Microsoft 365, ориентированную на конфиденциальность.
- Canon EOS 80D
- Российский рынок: Нефть, Инфляция и Активность Физлиц – Что Ждет Инвесторов? (09.04.2026 00:32)
- МосБиржа под давлением: windfall tax и ИИ-стимулы – что ждет инвесторов? (11.04.2026 10:32)
- Неважно, на что вы фотографируете!
- Новый iQOO Neo 9 S Pro обновляется до Dimensity 9300+, цена остается прежней.
2026-04-14 05:25