Искусственный интеллект учится видеть как человек: новый подход к оценке качества изображений

Автор: Денис Аветисян


Исследователи разработали систему, способную не только оценивать качество изображений, но и объяснять свои решения, приближаясь к человеческому восприятию и логике.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Анализ показывает, что модели Q-Instruct и DepictQA склонны к шаблонным ответам, игнорируя даже очевидные перцептивные ошибки, в то время как Q-Insight демонстрирует процедурный, основанный на шаблонах подход к рассуждениям, отличный от человеческого восприятия, тогда как разработанная модель, в отличие от них, учитывает как детализированные перцептивные признаки, так и общую концептуальную атмосферу, что позволяет генерировать рассуждения и описания, более соответствующие человеческому пониманию и выражению.
Анализ показывает, что модели Q-Instruct и DepictQA склонны к шаблонным ответам, игнорируя даже очевидные перцептивные ошибки, в то время как Q-Insight демонстрирует процедурный, основанный на шаблонах подход к рассуждениям, отличный от человеческого восприятия, тогда как разработанная модель, в отличие от них, учитывает как детализированные перцептивные признаки, так и общую концептуальную атмосферу, что позволяет генерировать рассуждения и описания, более соответствующие человеческому пониманию и выражению.

В статье представлен новый фреймворк для слепой оценки качества изображений, использующий обучение с подкреплением и человеческие аннотации для формирования модели, способной к аргументированному принятию решений.

Оценка качества изображений традиционно фокусируется на метриках, не учитывающих сложность человеческого восприятия и логических рассуждений. В данной работе, ‘Guiding Perception-Reasoning Closer to Human in Blind Image Quality Assessment’, предложен новый подход к слепой оценке качества изображений (BIQA), использующий обучение с подкреплением и человеческие аннотации для создания модели, способной не только оценивать качество, но и генерировать объяснения, имитирующие человеческий процесс рассуждений. Эксперименты показали, что предложенная модель достигает сопоставимых результатов с современными системами BIQA и демонстрирует высокую степень согласованности с человеческими объяснениями, что подтверждается метрикой ROUGE-1. Возможно ли дальнейшее развитие этой модели для создания действительно «интеллектуальных» систем оценки качества изображений, способных к более глубокому пониманию визуального контента?


Ограничения Традиционной BIQA: Теория vs. Реальность

Современные методы оценки качества изображений без эталонных данных (BIQA) часто чрезмерно полагаются на анализ визуальных характеристик, таких как резкость, контраст и цветовые оттенки. Однако, эта тенденция приводит к тому, что тонкие нюансы восприятия, влияющие на субъективную оценку качества, остаются неучтенными. Например, изображения, содержащие определенные текстуры или композиционные решения, могут восприниматься как более или менее приятные, независимо от их технических характеристик. В результате, существующие алгоритмы нередко демонстрируют расхождения с человеческим восприятием, особенно при оценке изображений, отличающихся сложной композицией или специфическим художественным стилем. Таким образом, акцент на низкоуровневых визуальных признаках ограничивает способность BIQA точно отражать сложность человеческого зрительного восприятия и, следовательно, снижает надежность автоматизированной оценки качества изображений.

Несмотря на впечатляющую эффективность моделей, прошедших контролируемую тонкую настройку (SFT) в задачах оценки качества изображений, их способность к обобщению и адаптации к новым, ранее не встречавшимся данным остается ограниченной. Эти модели, по сути, выучивают корреляции между входными данными и оценками качества, не формируя при этом истинного процесса рассуждения. Вместо понимания причин, влияющих на восприятие качества изображения, они просто воспроизводят заученные закономерности. Это приводит к тому, что модели SFT могут демонстрировать хорошие результаты на тестовых данных, близких к обучающим, но быстро теряют точность при оценке изображений, значительно отличающихся по содержанию или характеристикам. Отсутствие способности к логическому выводу и анализу ограничивает их потенциал в решении более сложных задач оценки качества, требующих понимания контекста и учета субъективных факторов восприятия.

Существующие методы оценки качества изображений вслепую (BIQA) часто сталкиваются с трудностями при установлении связи между низкоуровневыми визуальными признаками и субъективным восприятием качества. Анализ, сосредотачивающийся исключительно на таких параметрах, как резкость или контрастность, может упускать из виду более тонкие аспекты, влияющие на человеческое восприятие, например, реалистичность текстур или естественность цветопередачи. Это несоответствие между техническими характеристиками изображения и его воспринимаемым качеством приводит к неточным оценкам, особенно в случаях, когда изображение содержит сложные сцены или подверглось сложным искажениям. В результате, существующие алгоритмы BIQA часто не способны адекватно отразить нюансы человеческого зрительного восприятия, что ограничивает их эффективность в практических приложениях, таких как оптимизация сжатия изображений или оценка качества контента.

Модель демонстрирует более точное и детализированное понимание качества изображения по сравнению с Q-Insight, корректно выявляя дефекты и используя термины, соответствующие человеческому восприятию, что подтверждается соответствием аннотациям экспертов.
Модель демонстрирует более точное и детализированное понимание качества изображения по сравнению с Q-Insight, корректно выявляя дефекты и используя термины, соответствующие человеческому восприятию, что подтверждается соответствием аннотациям экспертов.

Моделирование Человеческого Восприятия и Рассуждений для BIQA

Предлагаемый подход к оценке качества изображений (BIQA) отличается от традиционных методов, фокусирующихся исключительно на анализе визуальных признаков. В основе новой системы лежит концепция явного моделирования процессов человеческого восприятия и рассуждений. Это достигается путем интеграции механизмов, имитирующих этапы, которые выполняет человек при оценке качества изображения: первичное восприятие визуальной информации и последующий анализ, основанный на интерпретации и рассуждениях. Такой подход позволяет учитывать субъективные факторы, влияющие на восприятие качества, и обеспечивает более точную и релевантную оценку, приближенную к человеческому суждению.

В рамках предлагаемой архитектуры используются большие мультимодальные языковые модели (MLLM) для генерации текстовых описаний изображений, что рассматривается как форма рассуждения о визуальном контенте. MLLM анализируют входные данные, состоящие из изображения и, возможно, сопроводительного текста, и формируют описание, отражающее ключевые визуальные элементы и их взаимосвязи. Одновременно с генерацией описания, модель выдает оценку качества изображения. Такой подход позволяет не только количественно оценить качество, но и предоставить интерпретируемое объяснение, основанное на анализе визуального контента, что приближает процесс оценки к человеческому восприятию и рассуждению.

Предлагаемый подход к оценке качества изображений (BIQA) моделирует двухэтапный процесс, характерный для человеческого восприятия. На первом этапе происходит первичное восприятие визуального входа, аналогичное обработке изображения зрительной системой человека. На втором этапе, на основе воспринятой информации, осуществляется рассуждение о качестве изображения, включающее анализ различных аспектов, влияющих на субъективное восприятие. Такая имитация позволяет системе не просто выявлять визуальные особенности, но и интерпретировать их в контексте оценки качества, приближая результат к человеческому суждению.

Предложенная схема рассуждений, состоящая из двух этапов, позволяет модели обучаться человекоподобному восприятию и оценке качества, используя награды за соответствие объяснений и предсказаний человеческим оценкам, а также за структурную согласованность, и дополнительно укрепляет эти навыки путем самосогласованности.
Предложенная схема рассуждений, состоящая из двух этапов, позволяет модели обучаться человекоподобному восприятию и оценке качества, используя награды за соответствие объяснений и предсказаний человеческим оценкам, а также за структурную согласованность, и дополнительно укрепляет эти навыки путем самосогласованности.

Обучение с Подкреплением для Согласованных Рассуждений

Для обучения многомодальной большой языковой модели (MLLM) используются модели обучения с подкреплением (RL), в частности, применяется алгоритм Group Relative Policy Optimization (GRPO). GRPO обеспечивает стабильное и эффективное обучение за счет оптимизации политики с учетом относительных изменений в группах параметров, что позволяет избежать резких колебаний и ускорить сходимость процесса обучения. Этот подход позволяет модели осваивать сложные стратегии рассуждения и генерировать более согласованные и логичные ответы, особенно в задачах, требующих последовательного принятия решений.

Процесс обучения модели строится вокруг функций вознаграждения, которые акцентируют соответствие между генерируемыми моделью текстовыми описаниями и цепочками рассуждений, представленными в датасете Q-Reasoning. Данный датасет содержит примеры задач, где явно прослеживается логическая последовательность шагов, необходимых для получения ответа. Функции вознаграждения оценивают близость сгенерированного текста к этим эталонным цепочкам рассуждений, используя метрики, измеряющие семантическое соответствие и полноту охвата ключевых логических шагов. Это позволяет модели не просто выдавать правильные ответы, но и демонстрировать процесс логического мышления, аналогичный человеческому.

Для эффективной донастройки и оптимизации базовой модели MLLM Qwen2.5-VL-7B-Instruct используются методы LoRA (Low-Rank Adaptation) и AdamW. LoRA позволяет значительно сократить количество обучаемых параметров, применяя низкоранговые матрицы к весам модели, что снижает вычислительные затраты и требования к памяти. AdamW, в свою очередь, является вариантом алгоритма оптимизации Adam с добавлением регуляризации весов (weight decay), способствующей предотвращению переобучения и улучшению обобщающей способности модели на новых данных. Комбинация LoRA и AdamW обеспечивает эффективную адаптацию модели к задачам согласованного рассуждения без значительного увеличения вычислительной сложности.

Сравнение методов Q-Instruct, Q-Insight-Score и предлагаемой модели показало, что наша модель обеспечивает более высокую согласованность рассуждений с человеческими аннотациями, что подтверждается зеленым цветом согласованных фрагментов и высоким значением метрики ROUGE-1.
Сравнение методов Q-Instruct, Q-Insight-Score и предлагаемой модели показало, что наша модель обеспечивает более высокую согласованность рассуждений с человеческими аннотациями, что подтверждается зеленым цветом согласованных фрагментов и высоким значением метрики ROUGE-1.

Валидация Рассуждений посредством Самосогласованности

Оценка способности модели к логическому мышлению осуществлялась посредством проверки её самосогласованности — то есть, насколько сгенерированные текстовые описания изображений последовательно отражают предполагаемое качество этих самых изображений. В рамках данного подхода, модель генерирует несколько описаний для одного и того же изображения, и анализируется, насколько эти описания согласуются друг с другом и с объективной оценкой качества изображения. Высокая степень согласованности свидетельствует о том, что модель не просто выдает случайные ответы, а действительно понимает факторы, определяющие визуальное качество, и способна последовательно применять эти знания. Такой метод позволяет более надежно оценить глубину понимания модели, в отличие от простых метрик, которые могут быть обмануты поверхностными соответствиями.

Исследования на наборе данных KonIQ продемонстрировали улучшенные результаты модели в оценке качества изображений, что указывает на более тесную связь между сгенерированными рассуждениями и субъективным восприятием качества. Модель способна не только определить, является ли изображение качественным, но и предоставить текстовое обоснование своей оценки, которое соответствует тому, как люди оценивают качество изображения. Это свидетельствует о способности модели к более глубокому пониманию визуальных характеристик, влияющих на восприятие, и ее способности выражать это понимание в форме понятных рассуждений. Улучшенные показатели на KonIQ подтверждают, что модель не просто запоминает шаблоны, но действительно анализирует и интерпретирует содержание изображения, устанавливая более надежную корреляцию между машинным анализом и человеческим восприятием.

Предложенная система продемонстрировала выдающиеся результаты в задаче оценки качества изображений, достигнув показателя ROUGE-1 в 0.514. Этот результат превосходит все сравниваемые модели, включая Q-Instruct, DepictQA и Q-Insight, что свидетельствует о более высокой точности и согласованности генерируемых описаний. Высокий показатель ROUGE-1 указывает на значительное совпадение между автоматически сгенерированными объяснениями и эталонными описаниями, подтверждая способность системы предоставлять релевантные и информативные оценки качества изображений. Достигнутый уровень производительности является важным шагом к созданию более прозрачных и надежных систем автоматической оценки качества изображений.

В ходе тестирования на различных наборах данных, разработанная модель продемонстрировала статистически значимое улучшение в оценке качества изображений по сравнению с базовой моделью Q-Insight-Score. Средний прирост составил $0.023$ по коэффициенту корреляции Пирсона (PLCC) и $0.041$ по коэффициенту корреляции Спирмена (SRCC). Эти показатели свидетельствуют о более высокой степени согласованности между предсказанными моделью оценками качества и восприятием качества изображений человеком, что подтверждает эффективность предложенного подхода к оценке и интерпретации визуального контента.

Детальная модель продемонстрировала высокую устойчивость в процессе рассуждений, достигнув показателя ROUGE-1 в 0.648 при использовании обеих шаблонов (b) и (c). Этот результат свидетельствует о способности модели последовательно и надежно генерировать описания, соответствующие оценке качества изображения, вне зависимости от конкретной формулировки запроса. Высокий показатель ROUGE-1, измеряющий перекрытие униграмм между сгенерированным текстом и эталонными описаниями, подтверждает, что модель не просто выдает случайные фразы, а формирует осмысленные и релевантные объяснения, что критически важно для обеспечения прозрачности и интерпретируемости в задачах оценки качества изображений.

Модель, генерируя текстовые объяснения своей оценки качества изображения, значительно повышает прозрачность и интерпретируемость процесса. Это позволяет не просто получить числовую оценку, но и понять, почему изображение было оценено именно так. Такой подход не ограничивается простой констатацией факта, а раскрывает логику рассуждений, лежащую в основе оценки. Предоставление обоснований способствует укреплению доверия к системе, поскольку пользователь может проанализировать ход мыслей модели и убедиться в обоснованности её заключения. В конечном итоге, подобная интерпретируемость открывает возможности для более эффективного взаимодействия человека и искусственного интеллекта в задачах оценки качества изображений, позволяя использовать результаты анализа не только для автоматизированных процессов, но и для экспертных заключений.

Оба базовых и детализированных алгоритма успешно адаптируются к различным структурам запросов, обеспечивая стабильное качество предсказаний, при этом детализированный алгоритм демонстрирует повышенную согласованность с человеческими оценками, подтвержденную стабильным результатом ROUGE-1 в 0.648 при использовании разных шаблонов.
Оба базовых и детализированных алгоритма успешно адаптируются к различным структурам запросов, обеспечивая стабильное качество предсказаний, при этом детализированный алгоритм демонстрирует повышенную согласованность с человеческими оценками, подтвержденную стабильным результатом ROUGE-1 в 0.648 при использовании разных шаблонов.

Работа над оценкой качества изображений, как показывает практика, неизменно возвращает к проблеме субъективности. Авторы предлагают использовать обучение с подкреплением и человеческие аннотации, чтобы модель не просто выставляла оценку, но и объясняла свой выбор. Это, конечно, красиво звучит, но, как известно, «всё новое — это просто старое с худшей документацией». Фей-Фей Ли однажды заметила: «Технологии должны служить людям, а не наоборот». И в данном случае, попытка приблизить машинное зрение к человеческому восприятию, используя Q-Reasoning Dataset, выглядит логичной, хотя и обречённой на необходимость постоянной доработки. Всё равно всегда найдётся способ сломать элегантную теорию, ведь продакшен всегда найдёт способ сломать элегантную теорию.

Что дальше?

Предложенная схема, конечно, элегантна. Идея с обучением модели не просто выносить оценку, а и формулировать “человеческое” обоснование, выглядит привлекательно. Однако, не стоит забывать: любая “человечность” в алгоритме — это лишь тщательно подобранные веса и метрики. Сейчас это назовут AI и получат инвестиции. Но что произойдет, когда система столкнется с изображением, которое сломает тщательно выстроенные паттерны? Начинаю подозревать, что Q-Reasoning Dataset — это лишь красивая иллюзия, а реальный мир гораздо хаотичнее.

Метрика ROUGE-1, безусловно, удобна для оценки, но она измеряет лишь поверхностное сходство текста. Качество “человеческого” обоснования оценки изображения — это вопрос гораздо более сложный, требующий глубокого понимания контекста и семантики. Вспомните, как все начиналось: с простого bash-скрипта, который определял качество изображения по размеру файла. Технический долг — это просто эмоциональный долг с коммитами.

В ближайшем будущем, вероятно, стоит сосредоточиться не на создании “человеческих” моделей, а на разработке систем, способных выявлять и адаптироваться к непредсказуемым артефактам и искажениям. Документация снова соврала, и эта система, вероятно, тоже. Все эти “революционные” технологии завтра станут техдолгом. И это, пожалуй, самое предсказуемое развитие событий.


Оригинал статьи: https://arxiv.org/pdf/2512.16484.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-20 18:11