Виртуальная примерка: Новый взгляд на соответствие формы и ткани

Автор: Денис Аветисян


Исследователи предлагают инновационный подход к виртуальной примерке одежды, позволяющий добиться более реалистичных и точных результатов.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Архитектура CORAL формирует скрытое пространство <span class="katex-eq" data-katex-display="false">\mathbf{z}_t</span> путём горизонтального объединения скрытых представлений одежды <span class="katex-eq" data-katex-display="false">\mathbf{z}_{\text{g},t}</span> и человека <span class="katex-eq" data-katex-display="false">\mathbf{z}_{\text{p},t}</span>, после чего к ним присоединяются каналы с информацией об условиях - холсте <span class="katex-eq" data-katex-display="false">\mathbf{z}_{\text{diptych}}</span> и маске <span class="katex-eq" data-katex-display="false">\mathbf{m}_{\text{diptych}}</span>, а поза вводится в виде токенов с использованием RoPE для согласования пространственных позиций; оптимизация <span class="katex-eq" data-katex-display="false">\mathcal{L}_{\text{CORAL}}</span> достигается за счёт минимизации стоимости соответствия одежды и человека <span class="katex-eq" data-katex-display="false">A^{t,l}_{\mathcal{P}\rightarrow\mathcal{G}}</span>, оцениваемой посредством MM-Attention в блоках DiT, где <span class="katex-eq" data-katex-display="false">\mathcal{L}_{\text{corr}}</span> выравнивает эту стоимость с псевдо-основой, полученной из DINOv3, а <span class="katex-eq" data-katex-display="false">\mathcal{L}_{\text{ent}}</span> стимулирует более чёткие и локализованные соответствия.
Архитектура CORAL формирует скрытое пространство \mathbf{z}_t путём горизонтального объединения скрытых представлений одежды \mathbf{z}_{\text{g},t} и человека \mathbf{z}_{\text{p},t}, после чего к ним присоединяются каналы с информацией об условиях — холсте \mathbf{z}_{\text{diptych}} и маске \mathbf{m}_{\text{diptych}}, а поза вводится в виде токенов с использованием RoPE для согласования пространственных позиций; оптимизация \mathcal{L}_{\text{CORAL}} достигается за счёт минимизации стоимости соответствия одежды и человека A^{t,l}_{\mathcal{P}\rightarrow\mathcal{G}}, оцениваемой посредством MM-Attention в блоках DiT, где \mathcal{L}_{\text{corr}} выравнивает эту стоимость с псевдо-основой, полученной из DINOv3, а \mathcal{L}_{\text{ent}} стимулирует более чёткие и локализованные соответствия.

В статье представлена модель CORAL, использующая диффузионные трансформаторы и механизмы внимания для улучшения соответствия между человеком и одеждой, что обеспечивает передовые результаты в области синтеза изображений.

Современные методы виртуальной примерки одежды часто испытывают трудности с сохранением мелких деталей, особенно в условиях отсутствия парных данных, где требуется точное соответствие между человеком и одеждой. В данной работе, представленной под названием ‘CORAL: Correspondence Alignment for Improved Virtual Try-On’, впервые проведен анализ механизма полного 3D внимания в архитектурах Diffusion Transformers (DiT), выявивший критическую зависимость соответствия между человеком и одеждой от точного сопоставления запросов и ключей. На основе этого понимания предложен CORAL — фреймворк, основанный на DiT, который явно выравнивает сопоставление запросов и ключей с надежными внешними соответствиями, улучшая как глобальный перенос формы, так и локальную детализацию. Каковы перспективы дальнейшей оптимизации и адаптации предложенного подхода для различных типов одежды и условий съемки?


Вызовы Реалистичной Виртуальной Примерки

Существующие методы виртуальной примерки одежды часто сталкиваются с трудностями в реалистичном наложении цифровых нарядов на изображения людей, что приводит к неестественному виду. Проблема заключается в несовершенстве алгоритмов, не способных точно адаптировать виртуальную одежду к индивидуальным особенностям фигуры и сложным позам. Это проявляется в деформациях ткани, неправильном расположении складок и несоответствии силуэта, что существенно снижает правдоподобность визуализации. Подобные недостатки препятствуют широкому внедрению технологии, поскольку потребители ожидают от виртуальной примерки максимально реалистичного отображения, чтобы сделать осознанный выбор при онлайн-покупках.

Основная сложность в создании реалистичных систем виртуальной примерки одежды заключается в установлении точного соответствия между особенностями фигуры человека и деталями одежды, особенно при сложных позах и разнообразных стилях одежды. Алгоритмы часто испытывают трудности с корректным наложением текстур и моделированием складок ткани, что приводит к неестественным результатам. Точное выравнивание требует учитывать не только общие пропорции, но и мельчайшие детали анатомии, а также то, как одежда деформируется под воздействием движения и гравитации. Поэтому, разработка методов, способных учитывать эти факторы и обеспечивать плавную адаптацию одежды к фигуре, является ключевой задачей для повышения реалистичности и удобства виртуальной примерки.

Визуализация соответствия пикселей между эталонным изображением одежды и изображением человека демонстрирует, что использование фильтрации на основе циклической согласованности позволяет получить более точное искажение одежды по сравнению с базовым подходом на основе внимания или нефильтрованной корреспонденцией DINOv3, которая может ошибочно сопоставлять визуально похожие области.
Визуализация соответствия пикселей между эталонным изображением одежды и изображением человека демонстрирует, что использование фильтрации на основе циклической согласованности позволяет получить более точное искажение одежды по сравнению с базовым подходом на основе внимания или нефильтрованной корреспонденцией DINOv3, которая может ошибочно сопоставлять визуально похожие области.

CORAL: Архитектура DiT для Улучшенного Соответствия

CORAL — это фреймворк, основанный на архитектуре DiT (Deep Iterative Transformer), разработанный для улучшения соответствия между изображением человека и изображением одежды в задачах виртуальной примерки одежды (VTON). В отличие от существующих подходов, CORAL явно фокусируется на установлении точной корреспонденции между пикселями изображения человека и соответствующими областями на изображении одежды. Это достигается за счет использования итеративной обработки, где информация о человеке и одежде последовательно уточняется и согласовывается на различных уровнях детализации, что позволяет более точно моделировать взаимодействие между телом и одеждой и получать более реалистичные результаты виртуальной примерки.

В основе CORAL лежит использование механизмов внимания, в частности, разработанного подхода “Full 3D Attention”, для одновременной обработки визуальной и текстовой информации. Этот механизм позволяет учитывать сложные взаимосвязи между элементами изображения человека и описанием одежды, обеспечивая более точное сопоставление и представление соответствий. “Full 3D Attention” эффективно улавливает нюансы, связанные с формой, текстурой и положением как модели, так и одежды, что критически важно для реалистичной виртуальной примерки и генерации изображений.

Архитектура CORAL разработана для решения проблем, связанных с вариациями позы и деформацией одежды, что позволяет добиться более реалистичных результатов в задачах виртуальной примерки одежды (VTON). В результате, CORAL демонстрирует передовые показатели на стандартных бенчмарках, включая VITON-HD, DressCode, а также на новом датасете, собранном из изображений в реальных условиях. Высокая производительность достигается за счет эффективной обработки визуальной и текстовой информации, что позволяет учитывать сложные взаимодействия между человеком и одеждой при различных позах и деформациях.

Применение функции потерь <span class="katex-eq" data-katex-display="false">\mathcal{L}_{CORAL}</span> улучшает соответствие между человеком и одеждой в DiT attention, что подтверждается повышением метрики PCK (α=16) и снижением энтропии внимания.
Применение функции потерь \mathcal{L}_{CORAL} улучшает соответствие между человеком и одеждой в DiT attention, что подтверждается повышением метрики PCK (α=16) и снижением энтропии внимания.

Дистилляция Соответствия с DINOv3 и Энтропийными Потерями

В CORAL используется ‘Loss на соответствие признаков’ (Correspondence Distillation Loss) для выравнивания предполагаемых соответствий между признаками с надежными псевдо-истинными соответствиями, полученными из предобученной модели компьютерного зрения DINOv3. Этот процесс использует предварительные знания DINOv3 для направления обучения точным соответствиям. DINOv3 предоставляет опорные данные, позволяющие минимизировать расхождение между предсказанными соответствиями и эталонными, что улучшает качество установления связей между признаками на изображениях.

В CORAL для обучения точному сопоставлению признаков используется предварительно обученная модель DINOv3. Вместо обучения с нуля, система использует знания, полученные DINOv3 в процессе обучения на больших объемах данных, для формирования надежных псевдо-оснований (pseudo ground-truth) для сопоставления. Это позволяет значительно ускорить процесс обучения и повысить точность сопоставления признаков, поскольку модель изначально ориентируется на уже существующие представления о визуальном мире, полученные DINOv3.

Для повышения точности сопоставления признаков используется функция потерь минимизации энтропии, стимулирующая формирование более резких и локализованных распределений внимания. Это улучшает процесс сопоставления запросов и ключей (Query-Key Matching), что приводит к более эффективному выравниванию признаков. Внедрение ℒ_{CORAL} позволило добиться прироста в 34% по метрике PCK (α=16), что свидетельствует о значительном улучшении точности сопоставления.

В ходе тестирования на наборах данных VITON-HD, DressCode и данных, собранных в реальных условиях (in-the-wild), CORAL показал наименьшие значения ключевых метрик оценки качества изображения. В частности, CORAL демонстрирует лучшие результаты по показателям SSIM (Structural Similarity Index), LPIPS (Learned Perceptual Image Patch Similarity) и FID (Fréchet Inception Distance) по сравнению с существующими методами, что подтверждает его передовые характеристики в задачах обработки изображений и компьютерного зрения. Полученные результаты указывают на высокую эффективность CORAL в задачах, требующих точного и реалистичного восстановления или генерации изображений.

Комбинирование функции потерь энтропии <span class="katex-eq" data-katex-display="false">\mathcal{L}_{\text{ent}}</span> с функцией корреляции <span class="katex-eq" data-katex-display="false">\mathcal{L}_{\text{corr}}</span> обеспечивает наиболее точную локализацию ключевых точек и четкую визуализацию внимания, что приводит к наилучшей производительности модели в задаче виртуальной примерки одежды.
Комбинирование функции потерь энтропии \mathcal{L}_{\text{ent}} с функцией корреляции \mathcal{L}_{\text{corr}} обеспечивает наиболее точную локализацию ключевых точек и четкую визуализацию внимания, что приводит к наилучшей производительности модели в задаче виртуальной примерки одежды.

Влияние и Перспективы Развития VTON

В основе значительного улучшения визуального качества и реалистичности приложений виртуальной примерки одежды (VTON) лежит разработанная система CORAL, которая уделяет особое внимание установлению точной взаимосвязи между человеком и одеждой. Традиционные методы часто упускают из виду тонкие детали соответствия формы одежды телу, что приводит к неестественным и неубедительным результатам. CORAL, напротив, явно моделирует эту взаимосвязь, учитывая позу человека, особенности ткани и физические свойства одежды. Это позволяет системе создавать изображения, на которых одежда выглядит естественно облегающей тело, сохраняя реалистичные складки и драпировки. Такой подход не только повышает визуальную привлекательность, но и значительно улучшает общее восприятие виртуального опыта примерки, приближая его к реальности.

Предлагаемый фреймворк открывает широкие возможности для персонализированного опыта в сфере моды, трансформируя онлайн-ритейл и виртуальный дизайн одежды. Благодаря способности реалистично визуализировать одежду на различных типах фигур и в динамичных сценах, становится возможным создание интерактивных примерочных, позволяющих покупателям виртуально примерить вещи, не выходя из дома. Это способствует повышению удовлетворенности клиентов и снижению процента возвратов. В сфере дизайна одежды фреймворк предоставляет инструменты для быстрого прототипирования и визуализации новых коллекций, сокращая время и затраты на разработку. В перспективе, данная технология может привести к созданию полностью виртуальных модных показов и персонализированных рекомендаций, основанных на индивидуальных предпочтениях и особенностях телосложения пользователя.

Оценка разработанной системы CORAL с использованием метрик, основанных на визуальных языковых моделях (VLM), продемонстрировала ее превосходство в ключевых аспектах реалистичности виртуальной примерки одежды. Система достигла наивысших показателей по согласованности переноса одежды (Garment Transfer Consistency — GTC), что свидетельствует о точном и правдоподобном отображении текстур и формы одежды на модели. Кроме того, CORAL показала лучшую согласованность текстовых атрибутов (Textual Attribute Consistency — TAC), гарантируя соответствие визуального представления одежды заданным описаниям, таким как цвет или материал. Важно отметить и превосходство в обеспечении когерентности соответствия позы и посадки (Fit Pose Coherence — FPC), что означает реалистичное поведение одежды при различных движениях и позах модели, подтверждая высокую степень реализма и функциональности системы.

Дальнейшие исследования CORAL направлены на значительное расширение возможностей системы в обработке более широкого спектра модных стилей и типов фигур. Особое внимание уделяется адаптации к динамичным сценариям, таким как реалистичная симуляция движения ткани и взаимодействия одежды с телом в различных позах. Разработчики стремятся к созданию системы, способной учитывать индивидуальные особенности пользователя и предлагать максимально реалистичные и персонализированные виртуальные примерки, преодолевая ограничения существующих решений и открывая новые перспективы в области виртуальной моды и онлайн-торговли.

Модель CORAL демонстрирует улучшенные результаты при генерации одежды в датасете DressCode (Morelli et al., 2022) по сравнению с существующими подходами.
Модель CORAL демонстрирует улучшенные результаты при генерации одежды в датасете DressCode (Morelli et al., 2022) по сравнению с существующими подходами.

Исследование, представленное в данной работе, демонстрирует важность точного соответствия между человеком и одеждой в задачах виртуальной примерки. Авторы предлагают CORAL — инновационный подход, использующий Diffusion Transformers и механизмы внимания для достижения этой цели. Как отмечал Эндрю Ын: «Мы должны быть осторожны с данными, которые используем, и понимать их ограничения». Этот принцип особенно актуален здесь, поскольку точность соответствия напрямую зависит от качества и тщательной проверки границ данных, используемых для обучения модели. Особенно важно, что CORAL фокусируется на выравнивании внимания с использованием надёжных внешних соответствий, что позволяет избежать ложных закономерностей и повысить реалистичность виртуальной примерки.

Что дальше?

Представленная работа, безусловно, демонстрирует прогресс в согласовании соответствий между человеком и одеждой в задачах виртуальной примерки. Однако, стоит признать, что истинное понимание “соответствия” остается ускользающим. Успех CORAL опирается на внимание к плотным соответствиям, но возникает вопрос: достаточно ли этого? Не упускаем ли мы из виду более тонкие, контекстуальные факторы, определяющие визуальную гармонию? Игнорирование этих нюансов может привести к созданию изображений, технически корректных, но лишенных эстетической привлекательности.

Перспективы развития лежат в исследовании механизмов, позволяющих моделировать не только геометрическую, но и стилистическую согласованность. Очевидна необходимость разработки метрик, способных объективно оценивать качество виртуальной примерки с точки зрения не только точности соответствий, но и общего визуального впечатления. Попытки включить в процесс обучения знания о моде, культуре и личных предпочтениях представляются весьма перспективными, хотя и сопряжены с определенными сложностями.

В конечном итоге, задача виртуальной примерки — это не просто техническая проблема, а вызов для нашего понимания визуального восприятия и эстетики. Поиск ответов на эти вопросы потребует междисциплинарного подхода, объединяющего достижения компьютерного зрения, машинного обучения и, возможно, даже когнитивной психологии. И, как это часто бывает, истинный прогресс может заключаться не в совершенствовании существующих методов, а в постановке принципиально новых вопросов.


Оригинал статьи: https://arxiv.org/pdf/2602.17636.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-02-22 05:32