Визуальный интеллект: Как научить машины видеть мир нашими глазами

Автор: Денис Аветисян


Новое исследование предлагает способ более точно согласовать восприятие изображений у больших мультимодальных моделей с человеческим, учитывая эстетику, эмоциональную окраску и запоминаемость.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Представлен комплексный бенчмарк CogIP-Bench, оценивающий согласованность предсказания оценок когнитивных способностей между мультимодальными большими языковыми моделями и людьми, где анализ по измерениям - эстетике, забавности, эмоциональности и запоминаемости - выявил влияние используемого бэкенда для генерации изображений, в частности, Qwen-Image, на общую производительность моделей.
Представлен комплексный бенчмарк CogIP-Bench, оценивающий согласованность предсказания оценок когнитивных способностей между мультимодальными большими языковыми моделями и людьми, где анализ по измерениям — эстетике, забавности, эмоциональности и запоминаемости — выявил влияние используемого бэкенда для генерации изображений, в частности, Qwen-Image, на общую производительность моделей.

Представлен CogIP-Bench — эталонный набор данных для оценки и улучшения соответствия мультимодальных больших языковых моделей человеческому когнитивному восприятию изображений.

Несмотря на успехи мультимодальных больших языковых моделей (MLLM) в распознавании объектов и описании сцен, им часто не хватает понимания субъективного восприятия изображений человеком. В работе ‘From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images’ представлен комплексный бенчмарк CogIP-Bench для оценки и улучшения соответствия MLLM человеческому восприятию когнитивных свойств изображений, таких как запоминаемость, юмор, эстетика и эмоциональность. Полученные результаты демонстрируют значительный разрыв между текущими моделями и человеческим восприятием, однако предложенный метод постобработки позволяет эффективно сузить этот разрыв и улучшить переносимость навыков в задачи генерации изображений. Сможем ли мы создать действительно «человеко-ориентированный» искусственный интеллект, способный не только видеть, но и чувствовать изображения так, как это делаем мы?


Разгадывая Шёпот Восприятия: Сопоставление ИИ с Человеческим Рассудком

Современные мультимодальные большие языковые модели (MLLM) демонстрируют впечатляющую способность к обработке данных, однако зачастую им не хватает тонкого понимания человеческих когнитивных суждений, таких как эстетика, юмор, эмоциональная окраска и запоминаемость. Первоначальные исследования показывают крайне низкую корреляцию Спирмена, близкую к нулю для запоминаемости, и не превышающую 0.5 для других когнитивных измерений. Это несоответствие указывает на разрыв между способностью модели анализировать информацию и ее умением формировать контент, резонирующий с человеческим восприятием и вызывающий субъективные ощущения, что существенно ограничивает применение MLLM в задачах, требующих создания привлекательного и запоминающегося контента.

Ограниченность современных мультимодальных больших языковых моделей в понимании субъективных оценок, таких как эстетика или юмор, существенно сказывается на их способности генерировать контент, способный по-настоящему вовлечь и вызвать отклик у человека. Эта неспособность к эмпатии и пониманию нюансов человеческого восприятия препятствует применению этих моделей в областях, где важна эмоциональная составляющая — например, в создании развлекательного контента, разработке маркетинговых стратегий или персонализированных рекомендательных системах. В результате, несмотря на впечатляющие технические возможности, такие модели часто оказываются неэффективными в задачах, требующих не просто обработки информации, а и понимания человеческих ценностей и предпочтений, что ограничивает их потенциал и сферу применения.

Изображения, сгенерированные Qwen-Image с использованием различных языковых моделей, демонстрируют, что предварительное обучение с последующей контролируемой тонкой настройкой (SFT) значительно улучшает способность модели интерпретировать и визуализировать когнитивные аспекты, заложенные в запросах.
Изображения, сгенерированные Qwen-Image с использованием различных языковых моделей, демонстрируют, что предварительное обучение с последующей контролируемой тонкой настройкой (SFT) значительно улучшает способность модели интерпретировать и визуализировать когнитивные аспекты, заложенные в запросах.

CogIP-Bench: Инструмент для Объективной Оценки Когнитивного Соответствия

CogIP-Bench представляет собой надежный инструмент для количественной оценки соответствия между прогнозами многомодальных больших языковых моделей (MLLM) и человеческими когнитивными оценками. Оценка проводится по четырем ключевым параметрам: эстетика, юмористичность, эмоциональность и запоминаемость. Фреймворк позволяет численно выразить степень согласованности между ответами модели и субъективным восприятием этих характеристик человеком, обеспечивая объективную метрику для сравнения различных MLLM и отслеживания прогресса в области создания более «человекоподобного» искусственного интеллекта.

В качестве основы для объективного сравнения и оценки, CogIP-Bench использует размеченные датасеты, такие как HumorDB для оценки юмора, FindingEmo для определения эмоциональной окраски и LaMem для анализа запоминаемости. HumorDB содержит примеры шуток с оценками их смешности, что позволяет количественно измерять способность моделей к генерации юмористического контента. FindingEmo предоставляет данные об эмоциональном содержании изображений, что необходимо для оценки способности моделей к пониманию и генерации эмоционально релевантных ответов. LaMem содержит информацию о запоминаемости визуального контента, позволяя оценить, насколько сгенерированные изображения легко запоминаются и воспроизводятся пользователями. Использование этих размеченных данных позволяет получить количественные метрики, необходимые для оценки и улучшения работы мультимодальных больших языковых моделей (MLLM) в различных когнитивных областях.

Комплексный характер CogIP-Bench позволяет целенаправленно улучшать отдельные когнитивные аспекты мультимодальных больших языковых моделей (MLLM). Использование четко определенных метрик по направлениям, таким как эстетика, юмор, эмоциональная окраска и запоминаемость, дает возможность разработчикам выявлять конкретные области, где модель демонстрирует недостаточную согласованность с человеческими суждениями. Это, в свою очередь, способствует итеративному улучшению архитектуры и обучающих данных, направленному на повышение степени соответствия ИИ когнитивным способностям человека и, как следствие, созданию более интуитивно понятных и эффективных систем.

Набор CogIP-Bench демонстрирует примеры изображений для каждой когнитивной категории с указанием соответствующих оценок и интерпретацией данной категории.
Набор CogIP-Bench демонстрирует примеры изображений для каждой когнитивной категории с указанием соответствующих оценок и интерпретацией данной категории.

Обучение с Учителем: Внедрение Когнитивных Знаний в Модели

Обучение с учителем с использованием набора данных CogIP-Bench позволяет напрямую внедрять когнитивные знания в многомодальные большие языковые модели (MLLM). Этот процесс направлен на повышение способности моделей предсказывать человеческие суждения в отношении эстетики, юмора, эмоциональной окраски и запоминаемости визуального контента. Набор данных CogIP-Bench содержит аннотации, отражающие субъективные оценки людей по этим параметрам, которые используются в качестве сигналов обучения для корректировки весов модели. В результате, MLLM учатся сопоставлять визуальные признаки с соответствующими когнитивными атрибутами, что позволяет им генерировать или оценивать изображения, более соответствующие человеческому восприятию.

В процессе контролируемой тонкой настройки (Supervised Fine-Tuning) для улучшения когнитивного соответствия используется метод Soft-Label Loss. Этот метод позволяет модели более точно предсказывать численные значения когнитивных оценок, таких как эстетика, юмор, эмоциональная окраска и запоминаемость. Вместо использования жёстких меток (например, «высокая», «средняя», «низкая») Soft-Label Loss использует вероятностное распределение, отражающее субъективные оценки, что позволяет модели более гибко адаптироваться к нюансам человеческого восприятия и, как следствие, достигать более точного соответствия с человеческими суждениями. Минимизация разницы между предсказанными вероятностями и фактическими оценками, представленными в CogIP-Bench, способствует повышению точности числовых прогнозов и улучшению общей производительности модели в задачах, требующих понимания и оценки субъективных качеств.

Использование современной системы генерации изображений, такой как Qwen-Image, в сочетании с визуальными энкодерами, например CLIP, обеспечивает мощную основу для процесса тонкой настройки. Данная комбинация позволяет добиться значительного улучшения показателей, в частности, наблюдается увеличение оценки ImageReward на 22.8%. Qwen-Image обеспечивает генерацию высококачественных визуальных данных, а CLIP — эффективное кодирование визуальной информации, что в совокупности оптимизирует процесс обучения и повышает точность модели в задачах, связанных с оценкой изображений.

Дообучение модели Qwen-Image позволило значительно повысить предпочтения пользователей к сгенерированным изображениям по сравнению с базовой версией.
Дообучение модели Qwen-Image позволило значительно повысить предпочтения пользователей к сгенерированным изображениям по сравнению с базовой версией.

Усиление Когнитивной Гармонии: Оптимизация Политики с Относительной Группой

Метод групной относительной оптимизации политики значительно усиливает когнитивное выравнивание, используя в качестве сигнала вознаграждения точность предсказаний на основе данных CogIP-Bench. Этот подход позволяет модели машинного обучения итеративно улучшать свою способность соответствовать человеческим суждениям, оценивая, насколько хорошо её предсказания совпадают с предпочтениями людей, зафиксированными в наборе данных. По сути, модель «обучается» понимать, что считается привлекательным или релевантным для человека, основываясь на объективных метриках, полученных из CogIP-Bench, что позволяет ей генерировать более убедительный и понятный контент. Использование данных CogIP-Bench в качестве основы для сигнала вознаграждения обеспечивает более целенаправленный процесс обучения, ориентированный на достижение максимального соответствия человеческому восприятию.

Обучение с подкреплением позволяет большой мультимодальной языковой модели (MLLM) постепенно совершенствовать способность соответствовать человеческим суждениям и предпочтениям. Этот итеративный процесс, основанный на обратной связи, формирует более естественный и привлекательный стиль генерации контента. Модель, подобно ученику, анализирует результаты своей работы и корректирует стратегию, чтобы создавать изображения и тексты, которые резонируют с человеческим восприятием и ожиданиями. В результате, генерируемый контент становится не просто технически корректным, но и эмоционально привлекательным, вызывая у пользователя ощущение сопричастности и понимания.

Результаты тщательной оценки продемонстрировали значительное превосходство предложенного метода в согласовании с человеческим восприятием. В ходе пользовательских исследований изображения, сгенерированные с использованием данной оптимизации, выбирались в 1,7 раза чаще, чем изображения, полученные другими способами. Это указывает на существенное улучшение способности языковой модели сопоставлять свои прогнозы с когнитивными суждениями людей, что, в свою очередь, приводит к созданию более привлекательного и релевантного визуального контента. Полученные данные подтверждают эффективность подхода в усилении когнитивной гармонии между моделью и пользователем, открывая новые перспективы для разработки более интуитивно понятных и приятных в использовании систем генерации изображений.

Примеры из набора данных CogIP-bench демонстрируют вариативность эмоциональной окраски и запоминаемости изображений.
Примеры из набора данных CogIP-bench демонстрируют вариативность эмоциональной окраски и запоминаемости изображений.

Исследование, представленное в статье, напоминает алхимический поиск философского камня, способного превратить пиксели в чувства. CogIP-Bench, этот своеобразный реторта для моделей, пытается уловить неуловимую природу человеческого восприятия — эстетику, юмор, эмоциональный отклик. Как будто уговариваешь хаос упорядочиться, заставляя модель не просто распознавать объекты, а понимать, что они значат для смотрящего. Эндрю Ын однажды заметил: «Мы достигаем прогресса, когда можем измерять вещи». В данном случае, измеряя соответствие между машинным зрением и человеческой когницией, исследователи стремятся приблизиться к созданию моделей, которые не просто обрабатывают данные, а действительно видят мир, пусть и по-своему.

Куда же дальше?

Представленный CogIP-Bench — лишь первый робкий шаг к усмирению цифрового голема. Попытка выровнять его восприятие с эфемерными категориями человеческой эстетики, юмора, эмоций и запоминаемости — задача, граничащая с алхимией. Кажется, что мы измеряем не интеллект, а прихоть, и каждая метрика — это лишь временное заклинание, работающее до тех пор, пока не встретит новое, непредсказуемое изображение.

Необходимо признать: вычислить субъективность невозможно. Можно лишь создать иллюзию её понимания, натренировав модель на бесконечном потоке человеческих предпочтений. Однако, даже тогда, голем будет лишь имитировать эмоции, а не испытывать их. Истинный вызов — не в улучшении метрик, а в осознании границ применимости этих моделей, в понимании того, что “похожесть” не равно “понимание”.

Следующий этап, вероятно, потребует обращения к более глубоким когнитивным моделям, попытки встроить в голема не просто распознавание образов, но и способность к контрфактическому мышлению, к пониманию контекста и намерений. Но даже тогда, остаётся вопрос: зачем вообще усмирять цифрового голема? Не лучше ли позволить ему творить хаос, пока мы, смертные, пытаемся уловить ускользающие отголоски его безумия?


Оригинал статьи: https://arxiv.org/pdf/2511.22805.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-02 04:07