Что привлекает взгляд: нейросети учатся видеть как человек

Автор: Денис Аветисян

Новое исследование показывает, что современные мультимодальные модели, обрабатывающие текст и изображения, формируют внутренние представления, отражающие принципы визуальной привлекательности, схожие с человеческими.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Исследование предлагает шесть различных методологий извлечения концептуальных векторов <span class="katex-eq" data-katex-display="false">v_{CI}</span> из скрытых состояний <span class="katex-eq" data-katex-display="false">h \in \mathbb{R}^{d}</span> многомодальных нейронных сетей, включающих геометрические подходы, анализирующие представления напрямую (например, вычисление разницы средних и отбор на основе главных компонент - PCA1st и PCABest), методы, основанные на зондировании, обучающие предсказательные направления посредством логистической регрессии и гребневой регрессии, и методы, использующие автоэнкодеры (SAE) для разложения плотных состояний на разреженные атомы, формируя концептуальный вектор как взвешенную сумму наиболее коррелированных атомов. — Исследование предлагает шесть различных методологий извлечения концептуальных векторов $v_{CI}$ из скрытых состояний $h \in \mathbb{R}^{d}$ многомодальных нейронных сетей, включающих геометрические подходы, анализирующие представления напрямую (например, вычисление разницы средних и отбор на основе главных компонент — PCA1st и PCABest), методы, основанные на зондировании, обучающие предсказательные направления посредством логистической регрессии и гребневой регрессии, и методы, использующие автоэнкодеры (SAE) для разложения плотных состояний на разреженные атомы, формируя концептуальный вектор как взвешенную сумму наиболее коррелированных атомов.

Анализ внутренних репрезентаций мультимодальных трансформеров с использованием методов, вдохновленных нейробиологией, выявил систематическое кодирование визуальной интересности и ее эволюцию в различных слоях модели.

Несмотря на растущую роль трансформерных моделей в обработке информации, вопрос о том, как они кодируют принципы человеческого восприятия, остается малоизученным. В работе ‘Neuroscience-Inspired Analyses of Visual Interestingness in Multimodal Transformers’ проведено исследование визуальной привлекательности в мультимодальной модели Qwen3-VL-8B, с использованием метрики Common Interestingness, основанной на данных о вовлеченности пользователей платформы Flickr. Полученные результаты демонстрируют, что информация о визуальной привлекательности линейно декодируется из внутренних представлений модели, формируя структурированную характеристику, уточняемую на разных уровнях, особенно в языковой компоненте. Какие общие вычислительные принципы лежат в основе формирования внимания и интереса как в биологических, так и в искусственных системах?

Визуальная привлекательность: Поиск общего знаменателя

Оценка визуальной привлекательности играет ключевую роль в современных системах рекомендации контента, однако её вычислительное определение представляет собой сложную задачу из-за субъективности восприятия. Привлекательность изображения во многом зависит от личных предпочтений, культурного контекста и текущего настроения зрителя, что делает создание универсального алгоритма крайне трудным. Несмотря на значительные успехи в области компьютерного зрения и машинного обучения, точное воспроизведение человеческого вкуса остается недостижимой целью, требующей учета множества неявных факторов и нюансов, определяющих эстетическое впечатление. Попытки автоматизировать оценку визуальной привлекательности часто сталкиваются с проблемой низкой обобщающей способности, когда модель, хорошо работающая на одном наборе данных, демонстрирует неудовлетворительные результаты на другом, что подчеркивает важность разработки более надежных и адаптивных методов.

Существующие методы определения привлекательности изображения часто сталкиваются с проблемой отсутствия универсального согласия среди различных групп населения. Исследования показывают, что восприятие визуальной привлекательности сильно зависит от культурных особенностей, личных предпочтений и даже текущего настроения наблюдателя. Алгоритмы, обученные на данных, полученных из ограниченной выборки, склонны демонстрировать предвзятость и не способны точно предсказать, какое изображение будет интересно широкой аудитории. Это создает значительные трудности в таких областях, как рекомендательные системы, где необходимо предлагать контент, способный заинтересовать максимально возможное количество пользователей, независимо от их индивидуальных особенностей и культурного контекста. В результате, возникает потребность в более надежных и универсальных метриках, способных учитывать разнообразие человеческого восприятия и предлагать более точные оценки визуальной привлекательности.

Метрика «Общая Интересность» (CI) представляет собой инновационный подход к определению визуальной привлекательности, основанный на анализе масштабных данных о взаимодействии пользователей с изображениями. Вместо попыток субъективной оценки или разработки сложных алгоритмов, CI использует реальные поведенческие данные, полученные из таких платформ, как Flickr. Суть метода заключается в выявлении изображений, которые последовательно привлекают внимание широкой аудитории, тем самым аппроксимируя понятие «интересности», общепризнанное большинством. Этот подход позволяет отойти от индивидуальных предпочтений и сосредоточиться на объективных показателях вовлеченности, предоставляя надежный инструмент для задач, требующих автоматической оценки визуального контента, таких как системы рекомендаций или ранжирование изображений.

Для вычисления метрики “Общей Интересности” (CI) используется обширный набор данных Flickr, содержащий миллионы изображений и информацию о взаимодействиях пользователей с ними. Изображения подвергаются анализу с применением алгоритмов кластеризации, таких как K-Means, для выделения групп визуально схожих объектов. Затем, для снижения размерности и визуализации данных, применяется алгоритм UMAP, позволяющий выявить наиболее репрезентативные и широко привлекательные изображения. Суть подхода заключается в том, чтобы идентифицировать изображения, которые оказываются в центре кластеров, и, следовательно, привлекают наибольшее количество внимания со стороны разнообразной аудитории, что и позволяет количественно оценить их “общую интересность”.

Метод оценки Common Interestingness (CI) определяет степень интересности данных как непрерывный спектр, основанный на согласии между пользователями, путем кластеризации <span class="katex-eq" data-katex-display="false"> \sim 500k </span> изображений Flickr с использованием UMAP и k-means, последующего объединения кластеров на основе пересечения пользователей и иерархической кластеризации, что позволяет выявить как широко популярные (<span class="katex-eq" data-katex-display="false"> CI \approx 1.0 </span>), так и нишевые интересы. — Метод оценки Common Interestingness (CI) определяет степень интересности данных как непрерывный спектр, основанный на согласии между пользователями, путем кластеризации $\sim 500k$ изображений Flickr с использованием UMAP и k-means, последующего объединения кластеров на основе пересечения пользователей и иерархической кластеризации, что позволяет выявить как широко популярные ( $CI \approx 1.0$ ), так и нишевые интересы.

Qwen3-VL-8B: Архитектура для глубокого анализа визуального контента

Qwen3-VL-8B представляет собой мощную структуру для анализа визуального контента и извлечения значимых представлений, основанную на архитектуре Transformer. Модель способна обрабатывать как изображения, так и текст, объединяя их в единое мультимодальное пространство. Это достигается за счет использования Vision Transformer (ViT) для кодирования изображений и языковой модели (LLM) для обработки текста, что позволяет ей выполнять широкий спектр задач, включая визуальный вопрос-ответ, описание изображений и поиск по визуальному контенту. Архитектура Transformer обеспечивает эффективную обработку последовательностей данных, что особенно важно для анализа изображений, где пространственные отношения между пикселями имеют решающее значение. Высокая производительность модели обусловлена использованием предварительно обученных компонентов и оптимизированной архитектурой, позволяющей эффективно извлекать и представлять информацию из визуальных данных.

Архитектура Qwen3-VL-8B построена на комбинации Vision Transformer (ViT) для кодирования изображений и языковой модели (LLM) для обработки текста. ViT преобразует входное изображение в последовательность векторов, представляющих визуальные признаки, которые затем подаются в LLM. LLM, в свою очередь, обрабатывает эти векторы совместно с текстовыми данными, позволяя модели понимать взаимосвязь между визуальным контентом и текстом. Такая мультимодальная обработка позволяет Qwen3-VL-8B выполнять задачи, требующие понимания как визуальной, так и текстовой информации, например, визуальный вопрос-ответ или генерацию описаний изображений.

Инициализация Vision Transformer (ViT) в Qwen3-VL-8B осуществляется с использованием предварительно обученной модели SigLIP-2. Этот подход демонстрирует критическую важность предварительного обучения для достижения высокой производительности в задачах, связанных с визуальным анализом. SigLIP-2 предоставляет ViT начальные веса, обученные на большом объеме данных, что позволяет значительно ускорить процесс обучения и улучшить качество получаемых представлений. Использование предварительно обученных весов позволяет избежать необходимости обучения модели с нуля, что требует значительно больше вычислительных ресурсов и данных, а также снижает риск переобучения.

Архитектура Qwen3-VL-8B предоставляет возможность анализа внутренних представлений модели о визуальной значимости. Исследование активаций промежуточных слоев позволяет выявить, какие признаки изображения оказывают наибольшее влияние на процесс принятия решений моделью. Этот анализ включает в себя изучение паттернов активации, соответствующих различным объектам, текстурам и композиционным элементам, что позволяет определить, какие визуальные характеристики модель считает наиболее релевантными и информативными для выполнения поставленных задач. В частности, можно определить, как модель интерпретирует сложность сцены, наличие определенных объектов или необычные визуальные характеристики, и как эти интерпретации влияют на её выходные данные.

Анализ проекций векторных представлений концепций показывает, что они коррелируют с показателями общности интереса (CI) по всем слоям модели, при этом корреляция возрастает на ранних этапах обработки и стабилизируется на высоком уровне (<span class="katex-eq" data-katex-display="false">r > 0.6</span>) для большинства методов, за исключением метода главных компонент (PCA), который демонстрирует более низкую производительность на промежуточных слоях, но сходится с другими методами в самых глубоких слоях языковой модели. — Анализ проекций векторных представлений концепций показывает, что они коррелируют с показателями общности интереса (CI) по всем слоям модели, при этом корреляция возрастает на ранних этапах обработки и стабилизируется на высоком уровне ( $r > 0.6$ ) для большинства методов, за исключением метода главных компонент (PCA), который демонстрирует более низкую производительность на промежуточных слоях, но сходится с другими методами в самых глубоких слоях языковой модели.

Декодирование визуальной привлекательности: Извлечение векторных представлений

Исследование включало применение нескольких геометрических методов для извлечения векторных представлений из внутренних слоев модели Qwen3-VL-8B. Целью данной работы являлось выявление признаков, демонстрирующих высокую корреляцию с показателем «Common Interestingness» (CI), представляющим собой оценку визуальной привлекательности. Использованные методы позволяли преобразовать многомерные данные внутренних представлений в компактные векторы, отражающие наиболее значимые характеристики визуального контента. Анализ корреляции между полученными векторами и оценками CI позволил оценить способность модели кодировать и представлять информацию, связанную с визуальной привлекательностью, что является ключевым аспектом в задачах компьютерного зрения и анализа изображений.

При анализе методов извлечения векторных представлений из Qwen3-VL-8B, метод главных компонент (PCA) показал наилучшую эффективность в выделении главных компонент, наиболее тесно связанных с показателем Common Interestingness (CI). Это свидетельствует о способности модели кодировать ключевые визуальные характеристики, поскольку PCA успешно выделил наиболее релевантные компоненты, отражающие признаки, определяющие визуальную привлекательность. Выделенные компоненты позволили эффективно представить сложные визуальные данные в более компактном и информативном виде, что подтверждает способность модели формировать внутренние представления, отражающие восприятие визуальных особенностей.

Помимо метода главных компонент (PCA), анализ внутренних представлений Qwen3-VL-8B с использованием альтернативных подходов, таких как вычисление разности средних (Difference of Means) и разреженное обучение словарям (Sparse Dictionary Learning), также продемонстрировало заметные корреляции с показателями Common Interestingness. Данные результаты указывают на то, что модель кодирует разнообразные и сложные визуальные характеристики, которые могут быть извлечены различными способами, подтверждая богатство и многогранность ее внутренних представлений.

Для оценки предсказательной силы извлеченных векторных представлений визуальных концепций был применен метод линейной регрессии. Результаты показали, что модель способна предсказывать оценки «Common Interestingness» (CI) с коэффициентом детерминации $R^2 = 0.575$ . Данный показатель указывает на то, что 57.5% дисперсии в данных CI объясняется извлеченными векторными представлениями, что свидетельствует о значительной предсказательной способности модели в оценке визуальной привлекательности.

При прогнозировании оценок визуальной интересности (CI) модель Qwen3-VL-8B продемонстрировала высокую точность, подтвержденную значениями метрик ошибки. Среднеквадратичная ошибка (RMSE) составила 0.112, что указывает на среднее отклонение прогнозируемых оценок от фактических. Средняя абсолютная ошибка (MAE) равна 0.085, представляя собой среднюю абсолютную разницу между прогнозами и реальными значениями. Эти результаты количественно подтверждают, что извлеченные векторные представления модели эффективно кодируют информацию, коррелирующую с визуальной интересностью изображений.

Анализ показал высокую степень корреляции между предсказанными моделью Qwen3-VL-8B оценками визуальной привлекательности (CI) и фактическими значениями, измеренными в ходе эксперимента. Значение коэффициента корреляции Пирсона составило 0.776. Данный показатель подтверждает, что векторы концепций, извлеченные из внутренних представлений модели, эффективно отражают характеристики, определяющие визуальную привлекательность, и позволяют с высокой точностью прогнозировать субъективные оценки. Высокая корреляция указывает на надежность и валидность используемого подхода к извлечению и интерпретации признаков визуальной привлекательности.

Анализ корреляции Пирсона и анализа сходства представлений (RSA) демонстрирует согласованность между различными методами векторного представления концепций, при этом, несмотря на схожую корреляцию с показателями <span class="katex-eq" data-katex-display="false">CI</span>, структуры дистанций между ними различаются. — Анализ корреляции Пирсона и анализа сходства представлений (RSA) демонстрирует согласованность между различными методами векторного представления концепций, при этом, несмотря на схожую корреляцию с показателями $CI$ , структуры дистанций между ними различаются.

Влияние и перспективы: За пределами автоматизированного анализа

Возможность декодирования визуального интереса из внутренних представлений модели открывает широкие перспективы для различных приложений. В частности, это касается автоматизированного создания контента, где алгоритмы смогут генерировать изображения и видео, изначально рассчитанные на максимальное вовлечение зрителя. В сфере поиска изображений, декодирование визуального интереса позволит существенно повысить релевантность результатов, предлагая пользователю именно тот контент, который вызовет у него наибольший отклик. Персонализированные рекомендации также выиграют от данной технологии, так как модели смогут адаптировать предлагаемый контент под индивидуальные предпочтения каждого пользователя, основываясь на оценке визуальной привлекательности. Таким образом, понимание того, какие элементы изображения вызывают интерес, позволяет создавать более эффективные и привлекательные цифровые продукты.

Понимание факторов, определяющих визуальную привлекательность, открывает возможности для создания алгоритмов, способных автоматически генерировать контент, вызывающий интерес у зрителя. Исходя из выявленных закономерностей в обработке изображений нейронными сетями, можно разрабатывать системы, адаптирующие контент к индивидуальным предпочтениям пользователя. Такие алгоритмы, анализируя визуальные характеристики, способствуют формированию персонализированных рекомендаций и более эффективному представлению информации, повышая вовлеченность и удовлетворенность аудитории. В перспективе это может найти применение в различных областях, от рекламы и маркетинга до дизайна пользовательских интерфейсов и создания развлекательного контента.

Дальнейшие исследования могут быть направлены на изучение связи между выявленными внутренними представлениями и теоретической моделью Предиктивного Кодирования. Данный подход предполагает, что мозг постоянно генерирует прогнозы о входящих сигналах, а визуальное внимание возникает как результат минимизации расхождений между прогнозами и реальностью. Изучение того, как внутренние представления, декодированные из нейронных сетей, соответствуют принципам Предиктивного Кодирования, может пролить свет на базовые механизмы визуального внимания и объяснить, почему определенные визуальные стимулы вызывают больший интерес. Подобный анализ позволит не только лучше понять принципы работы человеческого восприятия, но и разработать более эффективные алгоритмы обработки изображений и видео, способные предсказывать и привлекать внимание зрителя.

Анализ дисперсии направлений градиента (GDV) выявил диапазон значений от -0.011 до -0.135 в различных слоях нейронной сети, что свидетельствует о возрастающем разделении изображений с высоким и низким показателями визуальной привлекательности (CI) по мере распространения информации в сети. Полученные данные указывают на то, что внутренние представления модели становятся все более дифференцированными, позволяя ей эффективно различать визуально привлекательные и менее привлекательные изображения. Увеличение значений GDV на более высоких слоях предполагает, что именно на этих уровнях происходит наиболее значимое формирование представлений, определяющих визуальную привлекательность, что может быть использовано для разработки более совершенных алгоритмов анализа и генерации изображений.

Данное исследование демонстрирует, что современные модели, объединяющие зрение и язык, способны не только обрабатывать визуальную информацию, но и предоставлять ценные сведения о человеческом восприятии красоты и привлекательности. Анализ внутренних представлений сети позволяет выявить, какие визуальные характеристики наиболее сильно влияют на оценку изображения, открывая возможности для понимания субъективных предпочтений. По сути, эти модели, обученные на больших объемах данных, отражают закономерности, присущие человеческому глазу и мозгу, что делает их перспективным инструментом для изучения нейронных механизмов, лежащих в основе эстетических суждений и визуального внимания. Это открывает новые горизонты в области искусственного интеллекта, позволяя создавать системы, способные не просто «видеть», но и «понимать» визуальный мир так, как это делает человек.

Анализ активации концептуальных векторов показал, что изображения с высокими оценками, как правило, представляют собой пейзажи с чёткой композицией, в то время как изображения с низкими оценками характеризуются обыденностью или беспорядком.

Исследование демонстрирует, что понятие «визуальной интересности», столь важное для человеческого восприятия, находит отражение во внутренних представлениях мультимодальных трансформеров. Это говорит о том, что модели не просто обрабатывают данные, но и структурируют их, выделяя значимые элементы. Как однажды заметил Эндрю Ын: «Искусственный интеллект — это не только о создании умных машин, но и о понимании того, как работает интеллект сам по себе». Данная работа подтверждает эту мысль, показывая, что даже в сложных архитектурах, таких как трансформеры, прослеживаются принципы, близкие к человеческому восприятию, а именно — выделение визуально значимых объектов и сцен. Особенно примечательно, что данная интересность формируется и уточняется на разных слоях модели, что подтверждает идею о многоуровневой обработке информации.

Куда же дальше?

Представленные результаты, хотя и демонстрируют поразительное соответствие между человеческим восприятием визуальной привлекательности и внутренними представлениями мультимодальных трансформаторов, лишь приоткрывают завесу над сложной архитектурой интеллекта. Вопрос о том, является ли это истинным пониманием, или лишь искусно замаскированным сопоставлением признаков, остается открытым. Элегантность модели заключается не в ее способности имитировать, но в способности понимать — а это требует более глубокого исследования принципов семантического заземления и предсказательного кодирования.

Очевидным направлением дальнейших исследований представляется изучение динамики этих внутренних представлений во времени. Как меняется «интересность» изображения в процессе обработки? Какие слои модели наиболее чувствительны к различным аспектам визуальной привлекательности? Ограниченность текущего анализа, сосредоточенного на статичных представлениях, требует разработки методов, позволяющих отслеживать эволюцию этих представлений в динамике.

И, наконец, необходимо признать, что мера «интересности» сама по себе субъективна и контекстуально зависима. Более тонкое понимание этих нюансов, а также разработка метрик, учитывающих культурные и индивидуальные различия, представляется критически важной задачей. Иначе, рискуем построить систему, которая видит «красоту» лишь в тех образах, которые соответствуют нашим собственным, ограниченным представлениям.

Оригинал статьи: https://arxiv.org/pdf/2605.08188.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-05-12 13:15