Визуальное понимание: Как контекст влияет на интерпретацию изображений нейросетями

Автор: Денис Аветисян


Исследование показывает, что современные модели, объединяющие зрение и язык, способны учитывать контекст при интерпретации визуальной информации, но все еще отстают от человеческого уровня.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
В представленной системе, визуальное восприятие моделируется через набор из двенадцати геометрических фигур, каждая из которых несет уникальный идентификатор, что позволяет исследовать взаимосвязь между формой, обозначением и интерпретацией.
В представленной системе, визуальное восприятие моделируется через набор из двенадцати геометрических фигур, каждая из которых несет уникальный идентификатор, что позволяет исследовать взаимосвязь между формой, обозначением и интерпретацией.

Работа посвящена анализу способности открытых моделей ‘зрение-язык’ к прагматическому рассуждению в многоходовых играх с использованием изображений Tangram и выявлению различий в их обучении по сравнению с человеком.

Несмотря на значительные успехи в области искусственного интеллекта, модели машинного обучения часто испытывают трудности с пониманием контекста в многооборотном диалоге. В данной работе, ‘Context informs pragmatic interpretation in vision-language models’, исследуется способность современных vision-language моделей к прагматическому рассуждению в итеративных играх с указанием на объекты. Полученные результаты демонстрируют, что производительность моделей существенно возрастает при наличии релевантного контекста, хотя и уступает человеческим показателям, и требует более четкой обратной связи для эффективного обучения. Какие механизмы необходимо усовершенствовать, чтобы приблизить способность моделей к человеческому пониманию контекста и прагматической интерпретации языка?


Хрупкость Прагматики: Понимание Контекста в Мультимодальных Моделях

Современные открытые мультимодальные модели, работающие с текстом и изображениями, часто испытывают трудности в понимании тонкостей коммуникации, из-за недостатка развитых способностей к прагматическому рассуждению. Несмотря на прогресс в обработке естественного языка и компьютерном зрении, интерпретация сообщений, требующих учета контекста и намерений говорящего, остается сложной задачей. Для оценки способности моделей интерпретировать сообщения в коммуникативном контексте используется игра Iterated Reference Game. Результаты исследования демонстрируют, что современные VLM способны достигать точности выше случайной в данной игре, что указывает на потенциал к прагматическому рассуждению.

При использовании только текстового ввода, точность сопоставления варьируется в зависимости от условий и моделей, что демонстрируется кривыми LOESS, отражающими количество повторений, наблюдаемое сопоставляющим устройством, за исключением условия отсутствия контекста, где количество повторений взято из оригинальной игры, при этом доверительные интервалы, полученные методом bootstrap, указывают на статистическую значимость результатов, а пунктирные линии обозначают уровень случайности (0,083).
При использовании только текстового ввода, точность сопоставления варьируется в зависимости от условий и моделей, что демонстрируется кривыми LOESS, отражающими количество повторений, наблюдаемое сопоставляющим устройством, за исключением условия отсутствия контекста, где количество повторений взято из оригинальной игры, при этом доверительные интервалы, полученные методом bootstrap, указывают на статистическую значимость результатов, а пунктирные линии обозначают уровень случайности (0,083).

Однако способность к интерпретации остается хрупкой, и любое усложнение коммуникативной среды может привести к снижению точности. Всё связано, и всё неизбежно стремится к зависимости.

Лабиринт Контекста: Проектирование Тестов для Оценки Производительности VLM

Для систематического изучения влияния контекста на производительность визуальных языковых моделей в итеративной игре ссылок, были созданы различные условия, варьирующиеся от отсутствия контекста до предоставления высокорелевантных сценариев. Условия «Сцепленное» и «Перемешанное» позволили изолировать влияние порядка и релевантности контекста. Условия «Другой-Внутри» и «Другой-Сквозь» использовались для изучения способности к обобщению. Предварительная настройка инструкций являлась критически важным этапом, обеспечивающим способность ВЯМ эффективно следовать инструкциям игры и стандартизировать взаимодействие модели с задачей.

Точность выполнения проб зависит от точности выполнения предыдущих повторений для одного и того же танграма между сопоставляющими устройствами в условиях сцепления, перемешивания, обратного порядка и случайного выбора, при этом доверительные интервалы, полученные методом bootstrap, указывают на статистическую значимость результатов, а пунктирные линии обозначают уровень случайности (0,083).
Точность выполнения проб зависит от точности выполнения предыдущих повторений для одного и того же танграма между сопоставляющими устройствами в условиях сцепления, перемешивания, обратного порядка и случайного выбора, при этом доверительные интервалы, полученные методом bootstrap, указывают на статистическую значимость результатов, а пунктирные линии обозначают уровень случайности (0,083).

Точность и Зависимости: Количественная Оценка Чувствительности к Контексту

Результаты исследования демонстрируют чёткую корреляцию между релевантностью контекста и точностью модели. Модели достигли приблизительно 0.8 точности в условиях «Yoked» при наличии достаточного контекста, что сопоставимо с показателями человеческой точности. Сравнение производительности в различных условиях – «Random», «Backward» и «Ablated» – выявило значимость как последовательности, так и присутствия конкретных итераций в контексте. Удаление или изменение порядка итераций приводило к снижению точности модели. Точность человеческой оценки служила критическим базовым уровнем, демонстрирующим сложность задачи. В ходе исследования были протестированы Gemma 3 27B, Llama 3.2 11B и Qwen 2.5 VL 32B, и была выявлена слабая корреляция (0.10 — 0.27) между производительностью модели и человека.

Точность сопоставления для условий перемешивания, обратного порядка, случайного выбора и отсутствия контекста варьируется между различными типами сопоставляющих устройств (как человеческими, так и моделями), что демонстрируется кривыми LOESS, отражающими количество повторений из оригинальной игры, при этом доверительные интервалы, полученные методом bootstrap, указывают на статистическую значимость результатов, а пунктирные линии обозначают уровень случайности (0,083).
Точность сопоставления для условий перемешивания, обратного порядка, случайного выбора и отсутствия контекста варьируется между различными типами сопоставляющих устройств (как человеческими, так и моделями), что демонстрируется кривыми LOESS, отражающими количество повторений из оригинальной игры, при этом доверительные интервалы, полученные методом bootstrap, указывают на статистическую значимость результатов, а пунктирные линии обозначают уровень случайности (0,083).

Зрение и Контекст: Как Модели Рассуждают

Исследования показали, что визуально-языковые модели действительно используют визуальную информацию для выполнения прагматического рассуждения, но степень этого использования варьируется. Различные архитектуры и режимы обучения приоритизируют разные модальности. В некоторых случаях наблюдалось улучшение производительности при использовании только текстового ввода. Понимание этих нюансов имеет решающее значение для разработки более надежных и соответствующих человеческому мышлению VLMs.

Разница в точности между парадигмами, использующими только текст и изображения с текстом, варьируется в зависимости от условий и моделей, при этом доверительные интервалы, полученные методом bootstrap, указывают на статистическую значимость результатов, а пунктирные линии указывают на отсутствие разницы.
Разница в точности между парадигмами, использующими только текст и изображения с текстом, варьируется в зависимости от условий и моделей, при этом доверительные интервалы, полученные методом bootstrap, указывают на статистическую значимость результатов, а пунктирные линии указывают на отсутствие разницы.

Каждая новая архитектура обещает свободу, пока не потребует DevOps-жертвоприношений.

Исследование демонстрирует, что современные vision-language модели способны к прагматическому рассуждению в многоходовых играх, однако их чувствительность к контексту отличается от человеческой. Авторы подчеркивают необходимость более информативной обратной связи для эффективного обучения этих систем. В этом контексте, слова Брайана Кернигана приобретают особую актуальность: “Простота — это высшая степень совершенства”. Стремление к созданию более интуитивно понятных и эффективных систем требует от разработчиков фокусировки на ключевых принципах, а не на избыточном усложнении. Иначе говоря, даже самые сложные модели должны быть способны к четкому и однозначному восприятию контекста, подобно тому, как человек интерпретирует информацию в реальном мире. Это особенно важно, учитывая, что модели, описанные в статье, демонстрируют некоторую сложность в адаптации к изменяющимся условиям.

Что впереди?

Представленная работа демонстрирует, что даже самые передовые языково-визуальные модели способны к элементарному прагматическому мышлению, когда им предоставляется возможность вести многоходовую игру. Однако, эта способность не является истинным пониманием, а скорее статистическим отражением закономерностей, обнаруженных в данных. Модели, словно эхо, повторяют паттерны, но не создают их. Разрыв между их способностями и человеческим разумом остается существенным, особенно в части необходимости более подробной и явной обратной связи.

Очевидно, что дальнейшие исследования должны быть направлены не на улучшение самих моделей, а на понимание природы обратной связи, необходимой для их обучения. Заманчиво полагать, что можно «построить» прагматику, но более вероятно, что её можно лишь взрастить, предоставив модели возможность взаимодействовать с миром и учиться на своих ошибках. Ведь архитектура — это не структура, а компромисс, застывший во времени, и каждый выбор архитектуры — это пророчество о будущем сбое.

В конечном итоге, задача состоит не в создании искусственного интеллекта, который имитирует человеческое мышление, а в понимании самого мышления. Технологии сменяются, зависимости остаются. Истинный прогресс будет достигнут тогда, когда мы научимся видеть в этих моделях не инструменты, а сложные экосистемы, требующие бережного отношения и постоянного наблюдения.


Оригинал статьи: https://arxiv.org/pdf/2511.03908.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-08 16:00