Искусство видеть: Почему метрики качества изображений перестают совпадать с человеческим восприятием

Автор: Денис Аветисян

Новое исследование показывает, что современные методы оценки качества восстановленных изображений всё чаще расходятся с тем, как их воспринимает человек, требуя пересмотра подходов к оценке.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Традиционные метрики оценки качества изображений, такие как PSNR и SSIM, часто оказываются неадекватными для восприятия человеческим глазом, в то время как метрика LPIPS, стремящаяся к более низким значениям, демонстрирует потенциал в более точном отражении визуального качества, хотя и требует внимательной интерпретации результатов.

Оценка восстановления изображений должна основываться на человеческом восприятии и семантическом понимании, а не только на числовых показателях.

Несмотря на прогресс в области обработки изображений, оценка качества результатов зачастую опирается на метрики, не всегда соответствующие человеческому восприятию. В работе, озаглавленной ‘Position: Evaluation of Visual Processing Should Be Human-Centered, Not Metric-Centered’, авторы утверждают, что современные системы оценки все чаще расходятся с субъективным восприятием, особенно в контексте генеративных моделей и задач восстановления изображений. Основной тезис заключается в необходимости смещения парадигмы оценки в сторону более комплексного, ориентированного на человека подхода, учитывающего контекст и семантическое понимание. Не приведет ли игнорирование человеческого фактора к ограничению инноваций и ошибочным направлениям в развитии технологий обработки изображений?

Пределы Традиционной Оценки Качества Изображений

Традиционные методы оценки качества изображений, такие как PSNR и SSIM, широко используются благодаря своей простоте и вычислительной эффективности. Однако, несмотря на их повсеместное распространение, эти метрики часто демонстрируют слабую корреляцию с тем, как человек воспринимает качество изображения. Они основаны на измерении различий между пикселями, игнорируя сложные аспекты зрительного восприятия, такие как контекст, структура и особенности человеческой визуальной системы. В результате, изображение с высоким значением PSNR или SSIM может восприниматься как менее качественное, чем изображение с более низким значением, если первое содержит заметные артефакты или не соответствует ожиданиям наблюдателя. Это несоответствие особенно заметно при оценке изображений, сгенерированных современными алгоритмами, подчеркивая необходимость разработки новых, более адекватных методов оценки, учитывающих особенности человеческого зрительного восприятия.

Традиционные метрики оценки качества изображения, такие как PSNR и SSIM, оперируют на уровне различий в значениях пикселей, что существенно упрощает сложный процесс восприятия. В то время как эти метрики могут выявить незначительные изменения в цвете или яркости, они игнорируют ключевые аспекты, определяющие субъективное качество изображения для человека. К ним относятся такие явления, как структурное сходство, контрастность, резкость, а также влияние контекста и ожиданий зрителя. Например, незначительное размытие может быть незаметно на фотографии пейзажа, но критически важно для изображения медицинского сканирования. Игнорирование этих сложных perceptual phenomena приводит к несоответствию между объективными показателями и субъективной оценкой качества, что ограничивает эффективность алгоритмов обработки и сжатия изображений.

Несмотря на широкое использование в качестве эталонов, метрики PSNR и SSIM демонстрируют несоответствие с восприятием качества изображения, особенно в контексте современных генеративных моделей. Исследования показывают, что незначительные пиксельные различия, игнорируемые этими метриками, могут существенно влиять на субъективную оценку, в то время как большие отклонения, зафиксированные PSNR и SSIM, не всегда заметны человеческому глазу. Это несоответствие особенно ярко проявляется при оценке изображений, сгенерированных нейронными сетями, где акцент делается на реалистичности и визуальной привлекательности, а не на точной пиксельной идентичности исходному изображению. Таким образом, полагаться исключительно на PSNR и SSIM для оценки качества изображений, создаваемых передовыми алгоритмами, может приводить к ошибочным выводам и замедлять прогресс в области обработки и сжатия изображений.

Разрыв между объективными показателями качества изображения и субъективным восприятием человека существенно замедляет прогресс в области обработки и сжатия изображений. Традиционные метрики, несмотря на свою вычислительную эффективность, часто не отражают того, как зритель действительно оценивает визуальное качество. Это приводит к ситуации, когда алгоритмы, демонстрирующие высокие результаты по объективным показателям, могут восприниматься человеком как низкокачественные, и наоборот. В результате, оптимизация алгоритмов на основе несоответствующих метрик может привести к неоптимальным решениям, снижая эффективность кодирования, ухудшая визуальное восприятие и ограничивая возможности современных технологий, таких как генеративные модели и системы компьютерного зрения. Таким образом, преодоление этого несоответствия является критически важным для дальнейшего развития области.

В связи с несоответствием между традиционными метриками оценки качества изображения и субъективным восприятием человека, назрела острая необходимость в разработке принципиально новых подходов к оценке. Существующие методы, основанные на пиксельных различиях, не учитывают сложность зрительного восприятия и контекстуальные факторы, определяющие, насколько приятным или реалистичным кажется изображение. Такой подход, ориентированный на восприятие, позволит создавать более эффективные алгоритмы обработки и сжатия изображений, а также точнее оценивать качество контента, генерируемого современными моделями искусственного интеллекта, что является критически важным для дальнейшего прогресса в этой области.

Современные метрики IQA склонны переоценивать изображения с глобально усиленным высокочастотным контентом, не распознавая контекстуальный размытый эффект, такой как глубина резкости или размытие в движении, и в некоторых случаях даже оценивают их выше, чем эталонные изображения.

Революция Глубокого Обучения и Её Ограничения в Оценке Качества

Глубокое обучение произвело революцию в области восстановления и суперразрешения изображений, достигнув впечатляющих визуальных результатов. Современные модели, основанные на сверточных нейронных сетях и, в особенности, диффузионные модели, позволяют значительно улучшить качество изображений, восстанавливая детали и уменьшая шум, даже при значительном увеличении разрешения. Эти достижения особенно заметны в задачах, связанных с медицинскими изображениями, спутниковыми снимками и обработкой фотографий, где требуется высокая точность и детализация. Повышение эффективности стало возможным благодаря развитию архитектур сетей, увеличению объемов обучающих данных и оптимизации алгоритмов обучения, что позволило значительно превзойти традиционные методы обработки изображений.

Оценка качества восстановленных изображений, полученных с помощью алгоритмов глубокого обучения, представляет собой сложную задачу, поскольку традиционные метрики зачастую дают неверные результаты. Такие показатели, как PSNR (Peak Signal-to-Noise Ratio) и SSIM (Structural Similarity Index Measure), измеряют различия на уровне пикселей и структурного подобия, но не учитывают особенности человеческого восприятия. В результате, изображения с высокими значениями PSNR/SSIM могут содержать визуальные артефакты, незаметные для метрик, но хорошо различимые глазом человека. Это связано с тем, что стандартные метрики не отражают психовизуальные характеристики, важные для восприятия качества изображения, и поэтому не всегда коррелируют с субъективной оценкой человека.

Нейронные сети, обученные минимизации среднеквадратичной ошибки (MSE) или других метрик, основанных на разнице значений пикселей, не обладают врожденным пониманием того, как человек воспринимает качество изображения. Это приводит к ситуации, когда модель может добиться низкой пиксельной ошибки, но при этом генерировать артефакты, такие как размытие, неестественные текстуры или галлюцинации деталей, которые визуально заметны для наблюдателя, но не фиксируются стандартными метриками, такими как PSNR или SSIM. Таким образом, низкое значение пиксельной ошибки не гарантирует высокого перцептивного качества восстановленного изображения, что требует разработки более сложных метрик и методов оценки, учитывающих особенности человеческого зрительного восприятия.

Диффузионные модели, демонстрирующие впечатляющие результаты в генерации и восстановлении изображений, подчеркивают необходимость надежного контроля качества. Несмотря на визуальную привлекательность сгенерированных данных, стандартные метрики, такие как PSNR и SSIM, часто не отражают реальное восприятие качества человеком. Это связано с тем, что диффузионные модели оптимизированы для минимизации различий на уровне пикселей, но не учитывают перцепционные факторы, что может приводить к незаметным для метрик, но визуально заметным артефактам. Поэтому, для оценки качества вывода диффузионных моделей требуется разработка и применение более сложных и адекватных метрик, учитывающих особенности человеческого зрительного восприятия.

Несмотря на появление метрик, таких как LPIPS (Learned Perceptual Image Patch Similarity), превосходящих традиционные PSNR (Peak Signal-to-Noise Ratio) и SSIM (Structural Similarity Index) в оценке качества восстановленных изображений, полного соответствия между автоматическими метриками и субъективным восприятием человека пока не достигнуто. LPIPS использует сверточные нейронные сети, обученные на данных о человеческом восприятии, для более точной оценки структурного сходства, однако, даже эта метрика не всегда коррелирует с тем, как человек оценивает визуальное качество. Расхождения возникают из-за сложности моделирования особенностей человеческого зрительного восприятия, включая контекстуальные факторы и индивидуальные предпочтения, что делает задачу создания универсальной метрики, полностью соответствующей человеческому восприятию, крайне сложной.

Простые манипуляции с изображениями позволяют искусственно завысить показатели качества, оцениваемые метриками NR IQA, что демонстрирует их уязвимость к подобным воздействиям.

Большие Языковые Модели на Страже Восприятия: Новый Взгляд на Оценку Качества

Современные исследования в области оценки качества изображений (IQA) всё чаще используют большие языковые модели (LLM) для анализа, отходя от традиционных методов, основанных на сравнении отдельных пикселей. Вместо анализа низкоуровневых характеристик, LLM способны учитывать контекст изображения и семантическую информацию, что позволяет оценивать качество, приближенное к человеческому восприятию. Это достигается за счет использования LLM для интерпретации визуальных признаков и сопоставления их с лингвистическими описаниями, что позволяет учитывать такие факторы, как реалистичность, естественность и общее эстетическое впечатление, которые сложно определить при анализе только пиксельных данных. Такой подход позволяет создавать IQA-модели, более точно отражающие субъективное мнение человека о качестве изображения.

Методы, такие как Q-ALIGN и DeQA, используют возможности больших языковых моделей (LLM) для анализа контекста и семантической информации в изображениях, что позволяет проводить оценку качества, более соответствующую человеческому восприятию. В отличие от традиционных метрик, основанных на сравнении пикселей, эти подходы позволяют LLM учитывать общее содержание изображения и его соответствие ожидаемому результату. Это достигается за счет обучения LLM на парах «изображение-текстовое описание», что позволяет модели соотносить визуальные особенности с лингвистическим пониманием и выносить суждения о качестве изображения на основе семантической согласованности и контекста. В результате, оценка качества становится менее зависимой от технических артефактов и больше ориентирована на восприятие изображения человеком.

Ключевую роль в реализации подходов к оценке качества изображений, основанных на больших языковых моделях (LLM), играют Визуально-Языковые Модели (VLM). Эти модели обеспечивают связь между визуальными характеристиками изображения и лингвистическим пониманием, что позволяет проводить более нюансированную оценку. VLM обучаются сопоставлять визуальные признаки, извлеченные из изображения, с текстовыми описаниями или категориями, формируя общее семантическое представление. Это позволяет им не просто сравнивать пиксели, но и учитывать контекст, объекты и отношения между ними, что приближает оценку качества к человеческому восприятию. Эффективность VLM в задачах оценки качества изображений (IQA) напрямую зависит от способности модели к эффективному межмодальному представлению и рассуждению.

Современные методы оценки качества изображений, использующие большие языковые модели (LLM), стремятся моделировать перцептивные факторы, определяющие человеческое восприятие. В отличие от традиционных метрик, основанных на сравнении пикселей, эти подходы учитывают такие аспекты, как реалистичность, детализация и визуальный комфорт, которые непосредственно влияют на субъективное качество. Цель состоит в том, чтобы создать метрики, более точно коррелирующие с человеческим зрением, что позволяет оценивать изображения с точки зрения их влияния на зрителя, а не только с точки зрения технических характеристик. Это обеспечивает более надежную и релевантную оценку качества, особенно в задачах, где важна субъективная оценка, например, при обработке фотографий и видео.

Анализ метрик качества изображений <span class="katex-eq" data-katex-display="false">PSNR</span>, <span class="katex-eq" data-katex-display="false">SSIM</span> и <span class="katex-eq" data-katex-display="false">LPIPS</span> показывает, что лучшие результаты по каждой метрике достигаются определенной моделью, что подтверждается соответствующими показателями выигрышей и средними значениями наилучшей производительности. — Анализ метрик качества изображений $PSNR$ , $SSIM$ и $LPIPS$ показывает, что лучшие результаты по каждой метрике достигаются определенной моделью, что подтверждается соответствующими показателями выигрышей и средними значениями наилучшей производительности.

Проверка Нового Подхода: Многомерная Оценка и Будущие Направления

Эффективность методов оценки качества изображений (IQA) на основе больших языковых моделей (LLM) подтверждается посредством сравнительного анализа с многомерной оценкой, полученной от экспертов-людей. Бенчмаркинг включает сопоставление прогнозов LLM с субъективными оценками, предоставленными людьми, что позволяет установить корреляцию между автоматической оценкой и человеческим восприятием. Использование многомерного подхода, учитывающего различные аспекты качества (например, резкость, контрастность, естественность), позволяет более точно оценить производительность LLM, чем при использовании традиционных метрик, которые часто фокусируются на отдельных характеристиках изображения. Такой подход обеспечивает более надежную валидацию и демонстрирует способность LLM учитывать сложные факторы, влияющие на человеческое суждение о качестве изображения.

Исследования показали, что сопоставление предсказаний больших языковых моделей (LLM) с субъективными оценками, полученными от человеческих наблюдателей, демонстрирует более сильную корреляцию, чем использование традиционных метрик. В частности, LLM способны лучше отражать нюансы человеческого восприятия, которые не учитываются стандартными алгоритмическими показателями, такими как PSNR или SSIM. Это подтверждается статистическим анализом данных, показывающим более высокие коэффициенты корреляции между LLM-предсказаниями и человеческими оценками по сравнению с традиционными метриками, что указывает на более точную и надежную оценку качества изображения, соответствующую человеческому восприятию.

Полученные результаты свидетельствуют о способности больших языковых моделей (LLM) учитывать сложные перцептивные факторы, влияющие на субъективное восприятие качества изображения человеком. В отличие от традиционных метрик, основанных на математических вычислениях, LLM демонстрируют более высокую корреляцию с оценками, полученными от людей-экспертов. Это указывает на то, что LLM способны моделировать и учитывать такие аспекты, как визуальная сложность, реалистичность текстур и соответствие изображения ожиданиям наблюдателя, что в конечном итоге приводит к более точным и надежным оценкам качества изображения, приближенным к человеческому восприятию.

Пользовательские исследования предпочтений показали, что SUPIR является предпочтительным решением в целом (83.5%), однако алгоритм HAT демонстрирует более высокие показатели в конкретных сценариях. В частности, HAT превосходит SUPIR при оценке изображений, выполненных от руки (77.7%), а также изображений в стиле мультфильмов и комиксов (66.6%). Данные результаты подчеркивают необходимость проведения многомерной оценки качества изображений, учитывающей специфику различных типов контента и сценариев использования, поскольку единый алгоритм не всегда обеспечивает оптимальную производительность во всех случаях.

Современные достижения в области оценки качества изображений (IQA) подчеркивают важность интеграции человеческих перцептивных априорных знаний. Традиционные метрики часто не учитывают сложные факторы, влияющие на субъективное восприятие качества, в то время как модели, основанные на больших языковых моделях (LLM), способны учитывать эти факторы. Это достигается за счет обучения моделей на данных, отражающих особенности человеческого зрительного восприятия, что позволяет им более точно соотносить с субъективными оценками качества, полученными от наблюдателей. Включение таких априорных знаний позволяет создавать более надежные и соответствующие человеческому восприятию системы оценки качества изображений, особенно в сценариях, где традиционные метрики демонстрируют низкую корреляцию с субъективными оценками.

Общая оценка качества изображений (IQA) не позволяет проводить детальный анализ, поскольку эффекты избыточной резкости и чрезмерной генерации деталей могут искусственно завышать показатели MUSIQ, MANIQA и CLIP-IQA.

Будущее за Восприятием: На пути к Истинно Перцептивным Системам

Будущие исследования активно направлены на усовершенствование методов оценки качества изображений (IQA) на основе больших языковых моделей (LLM) и расширение спектра их применения в различных задачах обработки изображений. В частности, ожидается, что LLM смогут не только оценивать субъективное качество изображений, но и служить основой для разработки новых алгоритмов сжатия, восстановления и улучшения изображений, оптимизированных под восприятие человека. Ученые стремятся к созданию систем, способных более точно моделировать человеческое зрение, что позволит создавать более реалистичные и приятные для глаз изображения и видео, а также эффективно решать задачи, связанные с автоматической обработкой визуальной информации в различных областях, от медицины до развлечений.

Интеграция методов оценки качества изображений, основанных на больших языковых моделях, в сквозные конвейеры обработки изображений открывает путь к созданию систем, способных воспринимать изображения подобно человеку. Вместо последовательного применения отдельных алгоритмов для улучшения или анализа, сквозный подход позволяет моделировать весь процесс восприятия, от первичного захвата информации до формирования целостного представления об изображении. Это означает, что система сможет не только выявлять технические дефекты, но и оценивать эстетическое воздействие, эмоциональную окраску и общее визуальное впечатление, что приближает её к человеческому восприятию и позволяет создавать более совершенные алгоритмы сжатия, восстановления и улучшения изображений, учитывающие не только технические параметры, но и субъективное качество.

Изучение соответствия между представлениями, формируемыми большими языковыми моделями (LLM) при анализе изображений, и суждениями человеческого восприятия открывает принципиально новые возможности для понимания зрительного восприятия. Исследования в этой области направлены на выявление, какие особенности изображений LLM выделяют как наиболее значимые для формирования общего впечатления, и как эти особенности соотносятся с тем, что действительно привлекает внимание человека. Установление этой связи позволит не только улучшить алгоритмы оценки качества изображений, но и глубже понять механизмы работы зрительной системы человека, что может привести к созданию более эффективных методов обработки и передачи визуальной информации, а также разработке более реалистичных и приятных для восприятия изображений.

Перспективы, открываемые новыми методами оценки качества изображений на основе больших языковых моделей, сулят значительный прогресс в области сжатия, восстановления и улучшения изображений. Развитие этих технологий позволит создавать более эффективные алгоритмы сжатия, уменьшая размер файлов без ощутимой потери качества, что особенно важно для хранения и передачи больших объемов визуальной информации. В сфере восстановления изображений, новые подходы могут значительно улучшить устранение шумов и артефактов, возвращая поврежденным изображениям прежнюю четкость и детализацию. А в задачах улучшения изображений, ожидается возможность автоматической коррекции цветового баланса, повышения контрастности и резкости, что позволит создавать более привлекательные и реалистичные визуальные материалы, приближенные к восприятию человеческим глазом.

Предпочтения пользователей относительно производительности модели значительно различаются в зависимости от конкретного семантического сценария.

Исследование, посвящённое оценке качества восстановления изображений, закономерно сталкивается с проблемой несоответствия между метриками и человеческим восприятием. Авторы справедливо отмечают, что современные алгоритмы, особенно генеративные модели, способны обманывать числовые показатели, создавая иллюзию качества при фактических артефактах. В этом контексте, слова Джеффри Хинтона: «Я думаю, что мы находимся в состоянии, когда мы должны прекратить думать о том, чтобы заставлять машины делать то, что мы делаем, и начать думать о том, чтобы позволить им делать то, что они могут делать» — приобретают особый смысл. Ведь погоня за оптимизацией метрик часто приводит к игнорированию семантической целостности и, в конечном итоге, к системам, которые хорошо работают в лабораторных условиях, но терпят крах в реальном мире. Похоже, что элегантная теория снова падает под натиском суровой реальности продакшена.

Что дальше?

Представленные в работе замечания о расхождении между метриками и человеческим восприятием, вероятно, окажутся лишь предвестником более глубокого кризиса. Все эти «генеративные модели» — это, конечно, интересно, но рано или поздно проджект-менеджеры научатся их использовать для создания иллюзий, а не решения проблем. И тогда багтрекер снова наполнится жалобами, только теперь уже на «неестественно идеальные» изображения. Мы не улучшаем качество — мы отпускаем очередного демона в продакшен.

Попытки построить «человекоцентричные» метрики, вероятно, обречены на провал. Человек — существо иррациональное, его восприятие подвержено влиянию контекста, настроения и, чего греха таить, просто плохого кофе. Все эти тесты Тьюринга для изображений — лишь способ убедить самих себя, что хаос под контролем. В конечном итоге, кто-то всегда найдет способ сломать элегантную теорию.

Вместо того чтобы гоняться за идеальными метриками, стоит, пожалуй, смириться с неизбежным. И признать, что истинная оценка качества изображения — это не цифра, а субъективное ощущение, которое, увы, не поддается формализации. У нас не DevOps-культура, у нас культ DevOops. И это, вероятно, навсегда.

Оригинал статьи: https://arxiv.org/pdf/2603.00643.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-03 18:40