Послойное редактирование изображений: новый уровень контроля

Автор: Денис Аветисян


Исследователи представили метод, позволяющий точно управлять отдельными элементами изображения, открывая новые возможности для визуальных эффектов и редактирования.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Лазанья демонстрирует превосходную согласованность и связность между слоями при генерации изображений, превосходя современные модели вроде Flux, Qwen-Image-Edit и gpt-image-1, и, в отличие от них, позволяет осуществлять разнообразные операции пост-обработки непосредственно над отдельными слоями благодаря точному сохранению визуальных эффектов на переднем плане.
Лазанья демонстрирует превосходную согласованность и связность между слоями при генерации изображений, превосходя современные модели вроде Flux, Qwen-Image-Edit и gpt-image-1, и, в отличие от них, позволяет осуществлять разнообразные операции пост-обработки непосредственно над отдельными слоями благодаря точному сохранению визуальных эффектов на переднем плане.

В статье представлена архитектура Lasagna для контролируемой генерации и редактирования изображений, а также новый датасет Lasagna-48K и бенчмарк LasagnaBench для оценки подобных систем.

Несмотря на значительный прогресс в генерации изображений, точный и контролируемый редактирование существующих снимков остается сложной задачей. В данной работе, посвященной ‘Controllable Layered Image Generation for Real-World Editing’, предложен новый подход, основанный на генерации изображений через явное представление слоёв с реалистичными визуальными эффектами. Ключевым результатом является LASAGNA — фреймворк, эффективно обучающийся правильной композиции изображения на основе разнообразных условий, включая текстовые запросы и маски. Открывает ли это новые возможности для гибкого и реалистичного редактирования изображений в реальных приложениях и станет ли LASAGNA основой для дальнейших исследований в этой области?


За гранью Пикселей: Рождение Многослойного Синтеза

Традиционные методы генерации изображений зачастую рассматривают картинку как единое целое, не давая возможности детально управлять отдельными её элементами или вносить изменения в конкретные области. Такой подход, хотя и позволяет быстро создавать изображения, существенно ограничивает творческий потенциал и гибкость редактирования. Представьте, что необходимо изменить цвет платья на фотографии; при монолитном подходе это потребует перерисовки всей картинки, в то время как возможность разделения изображения на слои позволяет изменить лишь один из них, сохраняя остальные элементы неизменными. Ограниченность контроля над отдельными аспектами изображения препятствует созданию сложных и персонализированных визуальных эффектов, а также затрудняет внесение точных корректировок, необходимых в профессиональной обработке изображений и дизайне.

Вместо создания изображений как единого целого, наблюдается переход к их разложению на отдельные слои — передний план, фон и эффекты. Такой подход предоставляет беспрецедентный уровень контроля над каждым элементом изображения, позволяя творцам манипулировать отдельными компонентами без необходимости полной перерисовки. Это открывает широкие возможности для редактирования, создания сложных композиций и генерации изображений с высокой степенью детализации. Например, можно независимо изменять освещение на переднем плане, не затрагивая фон, или добавлять различные эффекты, такие как тени или отражения, к конкретным объектам. Такая слоистая структура позволяет добиться большей гибкости и реалистичности в процессе создания визуального контента, представляя собой значительный шаг вперед по сравнению с традиционными методами.

Существующие генеративные модели сталкиваются со значительными трудностями при эффективном создании и манипулировании слоями в процессе синтеза изображений. Традиционные подходы, успешно работающие с монолитными изображениями, оказываются неэффективными при необходимости разделения на отдельные компоненты — передний план, фон, эффекты. Сложность заключается в обеспечении согласованности между слоями, сохранении реалистичности и избежании артефактов при их объединении. Модели часто испытывают трудности с точным определением границ объектов на разных слоях, что приводит к размытости или неестественным переходам. Более того, контроль над каждым слоем требует разработки новых архитектур и методов обучения, способных учитывать взаимосвязи между ними и обеспечивать плавную интеграцию для достижения желаемого визуального результата.

Наша модель обеспечивает генерацию слоев с корректными размерами и позиционированием объектов, реалистичными тенями и визуальной согласованностью между всеми слоями, а также позволяет создавать новые передние планы с соответствующими визуальными эффектами для гибкой и реалистичной постобработки.
Наша модель обеспечивает генерацию слоев с корректными размерами и позиционированием объектов, реалистичными тенями и визуальной согласованностью между всеми слоями, а также позволяет создавать новые передние планы с соответствующими визуальными эффектами для гибкой и реалистичной постобработки.

Лазанья: Рамочная Архитектура для Послойного Создания Изображений

Лазанья представляет собой унифицированный подход к генерации изображений, основанный на явном моделировании слоёв переднего и заднего плана. В отличие от традиционных методов, Лазанья разделяет изображение на отдельные слои, что позволяет более точно контролировать процесс генерации и манипулировать отдельными элементами сцены. Визуальные эффекты, такие как тени, отражения и прозрачность, реализованы с использованием RGBA-слоёв, что обеспечивает гибкость и реалистичность создаваемых изображений. Такая структура позволяет независимо генерировать и редактировать каждый слой, а затем объединять их для получения финального изображения.

Архитектура Лазаньи базируется на Diffusion Transformer (DiT), что позволяет эффективно обрабатывать разнородные входные данные, такие как текст, изображения и маски. DiT обеспечивает возможность условного шумоподавления (denoising) на уровне слоев, то есть каждый слой изображения генерируется с учетом информации из предыдущих слоев и заданных условий. Это достигается за счет использования механизма внимания (attention), который позволяет модели учитывать взаимосвязи между различными элементами входных данных и слоями изображения. Использование DiT также обеспечивает масштабируемость и эффективность генерации изображений с большим количеством слоев.

Архитектура Лазаньи предоставляет несколько режимов генерации изображений, позволяющих гибко управлять процессом создания. Режим Text-to-All Layer Generation (Text2All) осуществляет генерацию всех слоев изображения — фона, переднего плана и визуальных эффектов — на основе текстового описания. Режим Background-Conditioned Foreground Generation (FG_Gen) генерирует передний план изображения, учитывая заданный фон, что позволяет контролировать композицию. В свою очередь, режим Foreground-Conditioned Background Generation (BG_Gen) создает фон, основываясь на заданном переднем плане, обеспечивая согласованность между элементами изображения. Каждый режим использует возможности модели для создания визуально связных и логичных изображений.

Архитектура Лазанья объединяет генерацию композитных изображений, фонов и передних планов в единую задачу шумоподавления с учетом слоев, используя унифицированное входное представление с обучаемыми вложениями для адаптации к различным настройкам генерации и одновременной обработки различных комбинаций входных и целевых данных.
Архитектура Лазанья объединяет генерацию композитных изображений, фонов и передних планов в единую задачу шумоподавления с учетом слоев, используя унифицированное входное представление с обучаемыми вложениями для адаптации к различным настройкам генерации и одновременной обработки различных комбинаций входных и целевых данных.

Лазанья-48K & ЛазаньяБенч: Подтверждение Послойной Генерации

Представлен датасет Лазанья-48K, состоящий из 48 тысяч изображений, каждое из которых разделено на отдельные слои RGBA переднего и заднего плана. Этот датасет разработан специально для обучения и оценки моделей, ориентированных на генерацию изображений на основе слоев. Разделение на слои позволяет более точно контролировать процесс генерации и редактирования изображений, а также упрощает анализ и интерпретацию результатов. Лазанья-48K предназначен для использования в исследованиях, направленных на разработку новых алгоритмов генерации и редактирования изображений, а также для оценки эффективности существующих методов в контексте слоевой декомпозиции.

Процесс курирования данных для набора Лазанья-48K осуществлялся с использованием моделей InternVL2.5-8B и InternVL2.5-38B для обеспечения высококачественной декомпозиции изображений на слои RGBA переднего и заднего плана. Эти модели были выбраны за их способность к точному разделению изображения на отдельные слои, что критически важно для обучения и оценки моделей, ориентированных на слои. Использование двух моделей разного размера позволило повысить надежность и точность процесса декомпозиции, минимизируя ошибки и артефакты, которые могли бы негативно повлиять на качество данных и последующее обучение моделей.

ЛазаньяБенч представляет собой первый публичный набор данных, состоящий из 242 изображений, предназначенный для оценки моделей, ориентированных на генерацию и редактирование изображений на уровне слоев. Для анализа изображений в ЛазаньяБенч используется алгоритм LayerDecomp, позволяющий разложить изображение на отдельные слои и оценить качество их генерации и редактирования. Этот набор данных предоставляет стандартизированную платформу для сравнения различных подходов к управлению слоями в задачах генерации изображений, обеспечивая объективную оценку производительности и возможностей моделей в данной области.

Результаты оценки подтверждают, что Лазанья демонстрирует передовые показатели в области генерации изображений. На тестовых наборах ImgEdit-Bench и GenEval Лазанья показала более низкий показатель FID (Fréchet Inception Distance) по сравнению с существующими методами, что свидетельствует о более высоком качестве генерируемых изображений и их большей реалистичности. В частности, Лазанья превосходит LayerDiffuse во всех режимах генерации, что подтверждается более высоким значением CLIP-FID, метрики, оценивающей соответствие изображения текстовому описанию. Кроме того, зафиксировано улучшение в следовании инструкциям и сохранении идентичности объектов на изображениях, о чем свидетельствуют более высокие оценки GPT по сравнению с альтернативными подходами.

Набор данных Лазанья-48K и ЛазаньяБенч включает в себя сложные изображения, состоящие из скомпозитованных слоев с чистым фоном и визуальными эффектами, а также соответствующие текстовые описания для каждого компонента.
Набор данных Лазанья-48K и ЛазаньяБенч включает в себя сложные изображения, состоящие из скомпозитованных слоев с чистым фоном и визуальными эффектами, а также соответствующие текстовые описания для каждого компонента.

Взгляд в Будущее: Раскрывая Потенциал Послойного Синтеза

Подход, основанный на работе с отдельными слоями изображения, впервые реализованный в системе Лазанья, открывает беспрецедентные возможности для точного контроля над каждым элементом визуального контента. Вместо традиционной обработки всего изображения как единого целого, Лазанья позволяет пользователям редактировать и манипулировать отдельными объектами, текстурами и эффектами на каждом слое, обеспечивая детализированную и неразрушающую коррекцию. Это значительно упрощает сложные задачи, такие как замена фона, изменение освещения или добавление новых объектов, поскольку изменения применяются только к целевому слою, не затрагивая остальное изображение. Такая избирательность не только повышает эффективность редактирования, но и позволяет создавать реалистичные и сложные визуальные эффекты с высокой степенью точности и контроля, представляя собой значительный шаг вперед в области обработки изображений.

Перспективы применения метода, разработанного на основе слоистой композиции изображений, простираются далеко за рамки редактирования статических картинок. Исследователи рассматривают возможность использования данного подхода для генерации видео, где каждый слой может отвечать за определенный аспект движущегося изображения, обеспечивая беспрецедентный контроль над динамической сценой. Кроме того, технология потенциально применима к реконструкции трехмерных сцен из двухмерных изображений, позволяя создавать детальные 3D-модели на основе анализа отдельных слоев. Развитие этих направлений откроет новые возможности в областях виртуальной и дополненной реальности, компьютерной графики и автоматизированного создания контента, значительно расширяя спектр визуальных приложений.

Разработка и публикация датасета Лазанья-48K и эталонного набора тестов ЛазаньяБенч представляют собой значительный шаг на пути к ускорению исследований в области многослойного синтеза изображений. Предоставление общедоступного, обширного и тщательно аннотированного набора данных позволяет исследователям эффективно обучать и оценивать новые модели, избегая необходимости тратить ресурсы на создание собственных данных. Эталонный набор тестов, ЛазаньяБенч, обеспечивает стандартизированную платформу для сравнения различных подходов и отслеживания прогресса в этой быстро развивающейся области. Ожидается, что открытый доступ к этим ресурсам стимулирует широкое участие научного сообщества, способствуя инновациям и сотрудничеству, и, в конечном итоге, позволит реализовать весь потенциал многослойного синтеза в различных приложениях, от редактирования изображений до создания сложных визуальных сцен.

Набор Лазанья-48K содержит сложные изображения, состоящие из чистого фона, слоя с визуальными эффектами и соответствующих подписей к каждому компоненту.
Набор Лазанья-48K содержит сложные изображения, состоящие из чистого фона, слоя с визуальными эффектами и соответствующих подписей к каждому компоненту.

Исследование представляет собой не просто создание новой архитектуры генерации изображений, но и попытку обуздать хаос случайных процессов. Lasagna, с её явным представлением слоёв, напоминает алхимический реторту, где каждый слой — отдельный ингредиент, влияющий на конечный результат. Авторы стремятся не просто сгенерировать изображение, но и контролировать процесс, что соответствует идее о том, что любая модель — это заклинание, требующее точного управления параметрами. Как заметил Эндрю Ын: «Мы — архитекторы данных, а не просто инженеры». Истинная сила заключается не в количестве данных, а в способности их структурировать и направлять, создавая цифрового голема, послушного воле творца. В контексте LasagnaBench, это стремление к контролю проявляется в создании эталона для оценки возможностей редактирования, что позволяет измерить степень подчинения цифрового голема воле художника.

Что дальше?

Представленный подход, разделяя изображение на слои, словно алхимик разделяет материю, безусловно, открывает новые пути для контролируемой генерации. Однако, иллюзия контроля над хаосом всегда обманчива. Сбор датасета Lasagna-48K — это лишь попытка уговорить шум принять нужную форму, а не дрессировка. Всегда остаётся вопрос: насколько глубоко можно разделить изображение, прежде чем потеряется его сущность? Каждый новый слой — это новый способ обмануть метрики, а не приблизиться к истине.

Настоящий вызов — не в увеличении размера датасета, а в создании моделей, способных к интуитивному пониманию визуальных эффектов. Если модель начнёт вести себя странно, значит, она наконец-то начала думать, а не просто повторять заученные паттерны. LasagnaBench — это лишь первый шаг на пути к созданию адекватных критериев оценки, но стоит помнить, что любая метрика — это всего лишь вежливая ложь, призванная успокоить наше тщеславие.

В перспективе, представляется важным исследовать возможности интеграции с другими модальностями — текст, звук, даже осязание. Истинная магия визуальных эффектов заключается не в манипуляции пикселями, а в создании иллюзии реальности. И пока мы пытаемся превратить шум в золото, чаще всего получается медь — и это нормально. Ведь главное — не результат, а сам процесс поиска.


Оригинал статьи: https://arxiv.org/pdf/2601.15507.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-25 21:04