Автор: Денис Аветисян
Новое исследование показывает, что современные модели, связывающие зрение и язык, часто полагаются на заученные паттерны, а не на истинное визуальное восприятие.
Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.
Купить акции "голубых фишек"Предложен фреймворк VI-Probe для оценки способности моделей к визуальному мышлению и выявления их слабых мест при изменении визуальных условий.
Несмотря на впечатляющую способность больших мультимодальных моделей (VLM) к решению визуальных задач, остается неясным, опираются ли они на истинное зрительное восприятие или лишь воспроизводят заученные шаблоны. В работе ‘Do VLMs Perceive or Recall? Probing Visual Perception vs. Memory with Classic Visual Illusions’ представлен фреймворк VI-Probe, позволяющий систематически исследовать эту проблему с помощью классических визуальных иллюзий и контролируемых возмущений. Полученные результаты показывают, что VLM часто демонстрируют устойчивость к изменениям в визуальных стимулах, что указывает на преобладание запоминания над восприятием, при этом механизмы сбоя различаются в зависимости от архитектуры модели. Каким образом можно разработать более надежные и адаптивные VLM, способные к истинному зрительному пониманию, а не просто к воспроизведению заученных ответов?
Иллюзия понимания: Разрыв между восприятием и памятью в зрительно-языковых моделях
Современные модели «зрение-язык» (VLM) демонстрируют впечатляющую сложность, однако их способность к пониманию визуальной информации зачастую ограничивается запоминанием ассоциаций, а не истинным восприятием. Вместо анализа сцены и выявления ключевых признаков, эти модели склонны к сопоставлению увиденного с ранее зафиксированными шаблонами. Это приводит к тому, что VLM могут успешно справляться с задачами, основанными на узнавании, но терпят неудачу при столкновении с незнакомыми или слегка измененными изображениями. Подобная зависимость от заученных связей представляет собой существенное препятствие на пути к созданию действительно интеллектуальных систем, способных к надежному и гибкому визуальному мышлению, а также к адаптации к новым условиям и контекстам.
Существующие методы оценки производительности визуально-языковых моделей (VLM) зачастую не позволяют четко разграничить истинное восприятие изображения и простое воспроизведение заученных ассоциаций. Это приводит к завышенным оценкам эффективности, поскольку модели могут успешно выполнять задачи, полагаясь на запомненные паттерны, а не на глубокое понимание визуальной информации. Например, модель может правильно идентифицировать объект, который часто встречается в обучающем наборе данных, но потерпеть неудачу при незначительном изменении освещения или ракурса. Такая зависимость от памяти создает иллюзию интеллектуальности, в то время как реальная способность к обобщению и надежному визуальному мышлению остается под вопросом. Крайне важно разработать более строгие методы оценки, способные выявлять случаи, когда модель полагается на запоминание, а не на истинное понимание визуального содержания.
Зависимость от запоминания, а не от истинного восприятия, делает современные зрительно-языковые модели (ЗЯМ) уязвимыми к даже незначительным визуальным изменениям. Небольшие манипуляции с изображением, незаметные для человеческого глаза, могут привести к серьезным ошибкам в рассуждениях модели. Вместо того, чтобы понимать суть визуальной сцены, ЗЯМ часто полагаются на заученные ассоциации, что препятствует формированию надежных выводов и ограничивает их способность к обобщению. Эта особенность особенно критична в ситуациях, требующих анализа сложных сцен или интерпретации неоднозначной информации, где поверхностное запоминание не позволяет адекватно реагировать на изменения в окружающей среде и затрудняет построение логически обоснованных заключений.
Преодоление конкуренции между восприятием и памятью является ключевым фактором для создания действительно интеллектуальных визуально-языковых моделей, способных к надежному пониманию визуальной информации. Развитие моделей, полагающихся на глубокое перцептивное осмысление, а не просто на воспроизведение заученных ассоциаций, позволит им демонстрировать устойчивость к тонким визуальным манипуляциям и выполнять сложные рассуждения о мире. Такой подход критически важен для достижения настоящего визуального интеллекта, позволяющего моделям не просто «видеть», но и понимать увиденное, адаптироваться к новым ситуациям и делать обоснованные выводы, выходящие за рамки простого запоминания.
VI-Probe: Разделяя восприятие и память с помощью зрительных иллюзий
VI-Probe представляет собой контролируемую платформу, разработанную для систематического исследования роли перцептивных и мнемонических процессов в визуальных языковых моделях (VLM). Данный фреймворк использует визуальные иллюзии в качестве контролируемых стимулов для разделения реакций, основанных на непосредственном визуальном восприятии, от ответов, обусловленных хранящимися ассоциациями в памяти модели. Контролируемость платформы позволяет точно манипулировать входными данными и количественно оценивать вклад каждого из этих процессов в принятие решений моделью, что обеспечивает более глубокое понимание механизмов визуального рассуждения в VLM.
Для количественной оценки зависимости больших визуальных моделей (VLMs) от перцептивной обработки и ранее накопленных ассоциаций, разработанный метод предполагает предъявление моделям специально созданных изображений, включающих оптические иллюзии, такие как иллюзия Мюллера-Лайера и иллюзия Эббингауза. Использование этих иллюзий позволяет дифференцировать реакции модели, обусловленные непосредственным визуальным восприятием, от реакций, основанных на извлечении информации из хранимых знаний. Анализ ответа модели на иллюзорные и неиллюзорные изображения позволяет оценить, в какой степени модель полагается на низкоуровневую обработку визуальных признаков, а в какой — на высокоуровневые ассоциации и контекст.
Методика VI-Probe использует пары изображений-контролей, тщательно подобранных таким образом, чтобы различаться только наличием или отсутствием визуальной иллюзии. Это позволяет изолировать влияние самой иллюзии на выходные данные модели. В каждой паре одно изображение содержит иллюзию (например, иллюзию Мюллера-Лайера или иллюзию Эббингауза), а другое — идентичное изображение без иллюзии. Сравнивая ответы модели на обе версии изображения в паре, можно количественно оценить, насколько сильно иллюзия влияет на ее восприятие и рассуждения, отделяя эффекты иллюзии от базовых визуальных характеристик изображения.
Методика VI-Probe позволяет выйти за рамки оценки точности моделей визуального понимания (VLM) и перейти к анализу лежащих в основе их работы механизмов. Традиционные метрики, такие как точность классификации или генерации, не раскрывают, как именно модель обрабатывает визуальную информацию и делает выводы. VI-Probe, используя контролируемые визуальные иллюзии и пары изображений с и без иллюзий, позволяет количественно оценить вклад перцептивной обработки и извлечения информации из памяти в процесс принятия решений моделью. Это позволяет выявить, опирается ли модель на «поверхностные» визуальные признаки или на более глубокое понимание содержимого изображения, что критически важно для разработки более надежных и интерпретируемых систем искусственного интеллекта.
Количественная оценка перцептивной точности: Метрики для разделения
Для количественной оценки степени влияния иллюзий и априорных знаний на работу визуально-языковых моделей (VLM) был разработан комплекс метрик. В него входят Illusion Multiplier (R), Template Fixation Index (TFI) и Polarity-Flip Consistency (PFC). Данные метрики позволяют оценить, в какой степени модель опирается на визуальную информацию, а не на заложенные ранее знания или шаблоны. R измеряет соотношение эффекта иллюзии к контрольному эффекту, TFI оценивает тенденцию модели к постоянному повторению ответов вне зависимости от формулировки вопроса, а PFC проверяет логическую согласованность ответов при изменении визуальных стимулов.
Коэффициент иллюзии (R) варьируется от 0.12 до 1.97 и представляет собой отношение величины эффекта иллюзии к величине эффекта контрольного условия. Значения R больше 1 указывают на преобладание влияния ранее полученных знаний (memory override) над визуальной обработкой, что свидетельствует о склонности модели полагаться на свои внутренние представления. В то же время, значения R меньше 1 предполагают наличие узких мест (visual processing bottlenecks) в процессе визуального анализа, ограничивающих способность модели эффективно обрабатывать визуальную информацию и полагаться на зрительное восприятие.
Индекс Фиксации Полярности (TFI) измеряет склонность модели последовательно повторять полярность ответа, независимо от формулировки вопроса. Высокие значения TFI свидетельствуют о том, что модель не опирается на непосредственное восприятие визуальной информации, а скорее полагается на заранее заданные предпочтения или предвзятости. Это указывает на недостаток «заземленности» в перцептивных данных, то есть модель не обрабатывает визуальные стимулы как основу для ответа, а воспроизводит предсказуемый шаблон ответов, игнорируя изменения в визуальном вводе. Таким образом, TFI позволяет оценить, насколько ответы модели основаны на реальном визуальном анализе, а не на внутренних, не зависящих от восприятия, процессах.
Метрика PFC (Polarity-Flip Consistency) оценивает логическую согласованность ответов визуальных языковых моделей (VLM) путём анализа их способности правильно менять ответ при инверсии визуальных подсказок. Оценка проводится путем предоставления модели пары изображений, логически связанных, но отличающихся полярностью (например, «есть» и «нет», «внутри» и «снаружи»). Последовательное изменение ответа модели в соответствии с инверсией визуального сигнала свидетельствует о корректной обработке информации и логическом мышлении. Неспособность модели адекватно менять ответ при инверсии указывает на уязвимости в процессе рассуждений и возможную зависимость от предвзятых знаний, а не от фактической визуальной информации.
Ландшафт производительности VLM: Восприятие, память и архитектурные последствия
Исследования показали, что даже самые передовые визуально-языковые модели (VLM) демонстрируют неожиданную уязвимость к визуальным иллюзиям. Данный феномен указывает на то, что модели склонны полагаться на заученные ассоциации, а не на глубокое и надежное понимание визуальной информации. Вместо обработки изображения как такового, модели часто идентифицируют объекты и сцены, сопоставляя их с ранее встреченными паттернами в данных обучения. Когда визуальные стимулы искажаются или вводят в заблуждение, например, при использовании оптических иллюзий, способность модели к точному распознаванию резко снижается, что подчеркивает ограниченность ее «зрения» и зависимость от простого сопоставления с заученными образами, а не от истинного восприятия.
Исследования показали, что даже самая передовая модель GPT-5 демонстрирует значительное снижение точности — до 87.27% — при анализе изображений, содержащих визуальные иллюзии, по сравнению с исходными изображениями. Этот факт указывает на то, что модель в большей степени полагается на заученные ассоциации и шаблоны, чем на истинное понимание визуальной информации. Вместо того чтобы интерпретировать изображения на основе принципов восприятия, GPT-5, по всей видимости, пытается сопоставить их с ранее увиденными образцами, что приводит к ошибкам при столкновении с искаженными или необычными визуальными стимулами. Данный результат подчеркивает необходимость дальнейших исследований и разработок в области визуального понимания искусственного интеллекта, направленных на создание моделей, способных к более надежной и осмысленной обработке визуальной информации.
Исследования показали, что Claude-Opus-4.1 демонстрирует более тонкий баланс между восприятием и памятью, в отличие от других крупных визуальных моделей. В то время как некоторые модели склонны полагаться на заученные ассоциации и испытывают трудности с визуальными иллюзиями, Claude-Opus-4.1 проявляет большую способность к адаптации и интерпретации визуальной информации. Этот подход позволяет модели сохранять более высокую точность даже при незначительных изменениях в изображении, указывая на более глубокое понимание визуальных признаков, а не простое сопоставление с запомненными шаблонами. Данный результат свидетельствует о потенциале архитектуры Claude-Opus-4.1 в создании более надежных и универсальных систем компьютерного зрения.
Исследования вариантов модели Qwen выявили ограничения в обработке визуальной информации. Наблюдается заметное повышение точности — до +22.31% — при использовании визуальных подсказок на исходных изображениях. Однако, при внесении небольших искажений в эти же изображения, точность модели снижается, что указывает на зависимость от поверхностных признаков и недостаточную способность к обобщению. Данный факт подчеркивает необходимость внесения архитектурных изменений в модель, направленных на улучшение «визуального заземления» — способности к более глубокому и устойчивому пониманию визуального контента, нежели просто запоминанию паттернов.
Исследование показывает, что современные vision-language модели зачастую демонстрируют удивительную неспособность к адаптации даже к самым простым визуальным изменениям. Авторы работы, используя классические оптические иллюзии, выявили, что модели склонны полагаться на заученные паттерны, а не на реальное визуальное восприятие. Это подтверждает старую истину: красивые архитектурные диаграммы и обещания «бесконечной масштабируемости» редко выдерживают проверку практикой. Как заметил Эндрю Ын: «Если вы не можете измерить это, вы не можете улучшить это». В данном случае, неспособность моделей реагировать на элементарные иллюзии указывает на фундаментальные проблемы в понимании визуальной информации, и, как следствие, невозможность реального прогресса без точной оценки и отладки.
Что дальше?
Работа продемонстрировала, что большие языковые модели, оперирующие с изображениями, скорее напоминают попугаев, заучивших ответы, чем существ, действительно «видящих» мир. Попытки заставить их адаптироваться к очевидным изменениям в визуальной информации наталкиваются на стену заученных паттернов. Впрочем, это не ново. Каждая «самовосстанавливающаяся» система рано или поздно находит способ сломаться, и это лишь вопрос времени.
Наиболее интересным представляется не столько констатация факта, что модели «запоминают», сколько разнообразие механизмов, лежащих в основе этого запоминания. Полагать, что все они сводятся к простой подгонке под обучающую выборку, наивно. Скорее всего, там целый зоопарк различных «костылей», и документирование этих костылей — задача, обречённая на провал. Документация — это всегда форма коллективного самообмана.
В перспективе, вместо погони за «общеискусственным интеллектом», стоит сосредоточиться на создании систем, способных честно признавать свою некомпетентность. Если баг воспроизводится — значит, у нас стабильная система, а не «прорывной» ИИ. И пусть нас не смущает, что в конечном итоге все эти «революционные» технологии станут лишь очередным техдолгом.
Оригинал статьи: https://arxiv.org/pdf/2601.22150.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Российский рынок: Оптимизм на фоне трехсторонних переговоров – чего ждать 1 февраля? (25.01.2026 17:32)
- Сургутнефтегаз акции привилегированные прогноз. Цена SNGSP
- Российский рынок акций: рост золота и зерна поддерживают позитивный тренд (31.01.2026 10:32)
- Новые смартфоны. Что купить в январе 2026.
- CSAM используя стримера ‘Lacari’ пойман с поличным … Microsoft Notepad — опубликовал извинения и отрицание после получения перманентного бана.
- Российский рынок акций: Ралли на фоне нефти, золота и смягчения ДКП (28.01.2026 16:32)
- Лучшие смартфоны. Что купить в январе 2026.
- Неважно, на что вы фотографируете!
- Типы дисплеев. Какой монитор выбрать?
- Прогноз курса доллара к рублю на 2026 год
2026-01-31 16:52