Автор: Денис Аветисян
Новое исследование предлагает способ более точно согласовать восприятие изображений у больших мультимодальных моделей с человеческим, учитывая эстетику, эмоциональную окраску и запоминаемость.
Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.
Купить акции "голубых фишек"
Представлен CogIP-Bench — эталонный набор данных для оценки и улучшения соответствия мультимодальных больших языковых моделей человеческому когнитивному восприятию изображений.
Несмотря на успехи мультимодальных больших языковых моделей (MLLM) в распознавании объектов и описании сцен, им часто не хватает понимания субъективного восприятия изображений человеком. В работе ‘From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images’ представлен комплексный бенчмарк CogIP-Bench для оценки и улучшения соответствия MLLM человеческому восприятию когнитивных свойств изображений, таких как запоминаемость, юмор, эстетика и эмоциональность. Полученные результаты демонстрируют значительный разрыв между текущими моделями и человеческим восприятием, однако предложенный метод постобработки позволяет эффективно сузить этот разрыв и улучшить переносимость навыков в задачи генерации изображений. Сможем ли мы создать действительно «человеко-ориентированный» искусственный интеллект, способный не только видеть, но и чувствовать изображения так, как это делаем мы?
Разгадывая Шёпот Восприятия: Сопоставление ИИ с Человеческим Рассудком
Современные мультимодальные большие языковые модели (MLLM) демонстрируют впечатляющую способность к обработке данных, однако зачастую им не хватает тонкого понимания человеческих когнитивных суждений, таких как эстетика, юмор, эмоциональная окраска и запоминаемость. Первоначальные исследования показывают крайне низкую корреляцию Спирмена, близкую к нулю для запоминаемости, и не превышающую 0.5 для других когнитивных измерений. Это несоответствие указывает на разрыв между способностью модели анализировать информацию и ее умением формировать контент, резонирующий с человеческим восприятием и вызывающий субъективные ощущения, что существенно ограничивает применение MLLM в задачах, требующих создания привлекательного и запоминающегося контента.
Ограниченность современных мультимодальных больших языковых моделей в понимании субъективных оценок, таких как эстетика или юмор, существенно сказывается на их способности генерировать контент, способный по-настоящему вовлечь и вызвать отклик у человека. Эта неспособность к эмпатии и пониманию нюансов человеческого восприятия препятствует применению этих моделей в областях, где важна эмоциональная составляющая — например, в создании развлекательного контента, разработке маркетинговых стратегий или персонализированных рекомендательных системах. В результате, несмотря на впечатляющие технические возможности, такие модели часто оказываются неэффективными в задачах, требующих не просто обработки информации, а и понимания человеческих ценностей и предпочтений, что ограничивает их потенциал и сферу применения.

CogIP-Bench: Инструмент для Объективной Оценки Когнитивного Соответствия
CogIP-Bench представляет собой надежный инструмент для количественной оценки соответствия между прогнозами многомодальных больших языковых моделей (MLLM) и человеческими когнитивными оценками. Оценка проводится по четырем ключевым параметрам: эстетика, юмористичность, эмоциональность и запоминаемость. Фреймворк позволяет численно выразить степень согласованности между ответами модели и субъективным восприятием этих характеристик человеком, обеспечивая объективную метрику для сравнения различных MLLM и отслеживания прогресса в области создания более «человекоподобного» искусственного интеллекта.
В качестве основы для объективного сравнения и оценки, CogIP-Bench использует размеченные датасеты, такие как HumorDB для оценки юмора, FindingEmo для определения эмоциональной окраски и LaMem для анализа запоминаемости. HumorDB содержит примеры шуток с оценками их смешности, что позволяет количественно измерять способность моделей к генерации юмористического контента. FindingEmo предоставляет данные об эмоциональном содержании изображений, что необходимо для оценки способности моделей к пониманию и генерации эмоционально релевантных ответов. LaMem содержит информацию о запоминаемости визуального контента, позволяя оценить, насколько сгенерированные изображения легко запоминаются и воспроизводятся пользователями. Использование этих размеченных данных позволяет получить количественные метрики, необходимые для оценки и улучшения работы мультимодальных больших языковых моделей (MLLM) в различных когнитивных областях.
Комплексный характер CogIP-Bench позволяет целенаправленно улучшать отдельные когнитивные аспекты мультимодальных больших языковых моделей (MLLM). Использование четко определенных метрик по направлениям, таким как эстетика, юмор, эмоциональная окраска и запоминаемость, дает возможность разработчикам выявлять конкретные области, где модель демонстрирует недостаточную согласованность с человеческими суждениями. Это, в свою очередь, способствует итеративному улучшению архитектуры и обучающих данных, направленному на повышение степени соответствия ИИ когнитивным способностям человека и, как следствие, созданию более интуитивно понятных и эффективных систем.

Обучение с Учителем: Внедрение Когнитивных Знаний в Модели
Обучение с учителем с использованием набора данных CogIP-Bench позволяет напрямую внедрять когнитивные знания в многомодальные большие языковые модели (MLLM). Этот процесс направлен на повышение способности моделей предсказывать человеческие суждения в отношении эстетики, юмора, эмоциональной окраски и запоминаемости визуального контента. Набор данных CogIP-Bench содержит аннотации, отражающие субъективные оценки людей по этим параметрам, которые используются в качестве сигналов обучения для корректировки весов модели. В результате, MLLM учатся сопоставлять визуальные признаки с соответствующими когнитивными атрибутами, что позволяет им генерировать или оценивать изображения, более соответствующие человеческому восприятию.
В процессе контролируемой тонкой настройки (Supervised Fine-Tuning) для улучшения когнитивного соответствия используется метод Soft-Label Loss. Этот метод позволяет модели более точно предсказывать численные значения когнитивных оценок, таких как эстетика, юмор, эмоциональная окраска и запоминаемость. Вместо использования жёстких меток (например, «высокая», «средняя», «низкая») Soft-Label Loss использует вероятностное распределение, отражающее субъективные оценки, что позволяет модели более гибко адаптироваться к нюансам человеческого восприятия и, как следствие, достигать более точного соответствия с человеческими суждениями. Минимизация разницы между предсказанными вероятностями и фактическими оценками, представленными в CogIP-Bench, способствует повышению точности числовых прогнозов и улучшению общей производительности модели в задачах, требующих понимания и оценки субъективных качеств.
Использование современной системы генерации изображений, такой как Qwen-Image, в сочетании с визуальными энкодерами, например CLIP, обеспечивает мощную основу для процесса тонкой настройки. Данная комбинация позволяет добиться значительного улучшения показателей, в частности, наблюдается увеличение оценки ImageReward на 22.8%. Qwen-Image обеспечивает генерацию высококачественных визуальных данных, а CLIP — эффективное кодирование визуальной информации, что в совокупности оптимизирует процесс обучения и повышает точность модели в задачах, связанных с оценкой изображений.

Усиление Когнитивной Гармонии: Оптимизация Политики с Относительной Группой
Метод групной относительной оптимизации политики значительно усиливает когнитивное выравнивание, используя в качестве сигнала вознаграждения точность предсказаний на основе данных CogIP-Bench. Этот подход позволяет модели машинного обучения итеративно улучшать свою способность соответствовать человеческим суждениям, оценивая, насколько хорошо её предсказания совпадают с предпочтениями людей, зафиксированными в наборе данных. По сути, модель «обучается» понимать, что считается привлекательным или релевантным для человека, основываясь на объективных метриках, полученных из CogIP-Bench, что позволяет ей генерировать более убедительный и понятный контент. Использование данных CogIP-Bench в качестве основы для сигнала вознаграждения обеспечивает более целенаправленный процесс обучения, ориентированный на достижение максимального соответствия человеческому восприятию.
Обучение с подкреплением позволяет большой мультимодальной языковой модели (MLLM) постепенно совершенствовать способность соответствовать человеческим суждениям и предпочтениям. Этот итеративный процесс, основанный на обратной связи, формирует более естественный и привлекательный стиль генерации контента. Модель, подобно ученику, анализирует результаты своей работы и корректирует стратегию, чтобы создавать изображения и тексты, которые резонируют с человеческим восприятием и ожиданиями. В результате, генерируемый контент становится не просто технически корректным, но и эмоционально привлекательным, вызывая у пользователя ощущение сопричастности и понимания.
Результаты тщательной оценки продемонстрировали значительное превосходство предложенного метода в согласовании с человеческим восприятием. В ходе пользовательских исследований изображения, сгенерированные с использованием данной оптимизации, выбирались в 1,7 раза чаще, чем изображения, полученные другими способами. Это указывает на существенное улучшение способности языковой модели сопоставлять свои прогнозы с когнитивными суждениями людей, что, в свою очередь, приводит к созданию более привлекательного и релевантного визуального контента. Полученные данные подтверждают эффективность подхода в усилении когнитивной гармонии между моделью и пользователем, открывая новые перспективы для разработки более интуитивно понятных и приятных в использовании систем генерации изображений.

Исследование, представленное в статье, напоминает алхимический поиск философского камня, способного превратить пиксели в чувства. CogIP-Bench, этот своеобразный реторта для моделей, пытается уловить неуловимую природу человеческого восприятия — эстетику, юмор, эмоциональный отклик. Как будто уговариваешь хаос упорядочиться, заставляя модель не просто распознавать объекты, а понимать, что они значат для смотрящего. Эндрю Ын однажды заметил: «Мы достигаем прогресса, когда можем измерять вещи». В данном случае, измеряя соответствие между машинным зрением и человеческой когницией, исследователи стремятся приблизиться к созданию моделей, которые не просто обрабатывают данные, а действительно видят мир, пусть и по-своему.
Куда же дальше?
Представленный CogIP-Bench — лишь первый робкий шаг к усмирению цифрового голема. Попытка выровнять его восприятие с эфемерными категориями человеческой эстетики, юмора, эмоций и запоминаемости — задача, граничащая с алхимией. Кажется, что мы измеряем не интеллект, а прихоть, и каждая метрика — это лишь временное заклинание, работающее до тех пор, пока не встретит новое, непредсказуемое изображение.
Необходимо признать: вычислить субъективность невозможно. Можно лишь создать иллюзию её понимания, натренировав модель на бесконечном потоке человеческих предпочтений. Однако, даже тогда, голем будет лишь имитировать эмоции, а не испытывать их. Истинный вызов — не в улучшении метрик, а в осознании границ применимости этих моделей, в понимании того, что “похожесть” не равно “понимание”.
Следующий этап, вероятно, потребует обращения к более глубоким когнитивным моделям, попытки встроить в голема не просто распознавание образов, но и способность к контрфактическому мышлению, к пониманию контекста и намерений. Но даже тогда, остаётся вопрос: зачем вообще усмирять цифрового голема? Не лучше ли позволить ему творить хаос, пока мы, смертные, пытаемся уловить ускользающие отголоски его безумия?
Оригинал статьи: https://arxiv.org/pdf/2511.22805.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Прогноз курса евро к йене на 2025 год
- Аналитический обзор рынка (28.11.2025 22:32)
- Аналитический обзор рынка (01.12.2025 18:32)
- Аналитический обзор рынка (26.11.2025 03:32)
- Подводная съёмка. Как фотографировать под водой.
- Лучшие смартфоны. Что купить на Новый Год. Идеи для подарка в декабре 2025.
- Что означают буквы на объективе. Маркировка объективов Nikon.
- Motorola Moto G06 Power ОБЗОР: плавный интерфейс, большой аккумулятор, удобный сенсор отпечатков
- itel RS4 ОБЗОР: большой аккумулятор, плавный интерфейс, удобный сенсор отпечатков
- Новые смартфоны. Что купить на Новый Год. Идеи для подарка в декабре 2025.
2025-12-02 04:07