Иллюзия понимания: Как нейросети «видят» без глаз

Автор: Денис Аветисян

Новое исследование показывает, что современные мультимодальные модели искусственного интеллекта могут демонстрировать высокую точность в визуальных задачах, полагаясь не на фактическое восприятие изображений, а на заученные ассоциации и предвзятости.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Искусственный интеллект демонстрирует феномен «миража», заключающийся в описании визуальных характеристик и объектов даже при отсутствии какого-либо визуального ввода, причём частота проявления этого эффекта измеряется как показатель склонности модели к подобному поведению и может возрастать в новых версиях моделей, что указывает на возможность возникновения нежелательных последствий при дальнейшем обучении и приобретении новых навыков в мультимодальных системах.

Феномен, получивший название «эффект миража», ставит под сомнение валидность существующих метрик оценки визуального мышления и способности моделей к истинному пониманию.

Несмотря на впечатляющие успехи мультимодальных ИИ-систем, механизмы, лежащие в основе визуально-языкового рассуждения, остаются недостаточно изученными. В работе ‘Mirage The Illusion of Visual Understanding’ авторы выявляют неожиданную уязвимость современных моделей: способность демонстрировать высокую производительность на визуальных бенчмарках, полагаясь не на анализ изображений, а на заученные ассоциации и предвзятости — феномен, названный “иллюзией миража”. Выявлено, что модели способны генерировать детализированные описания и даже диагностические заключения по изображениям, которые им не были предоставлены, а также достигать высоких результатов без какой-либо визуальной информации. Ставит ли это под сомнение валидность существующих методов оценки и требует ли разработки принципиально новых, ориентированных на реальное визуальное обоснование, особенно в критически важных областях, таких как медицинская диагностика?

Иллюзия понимания: Мультимодальный ИИ и его ограничения

Мультимодальные модели искусственного интеллекта, объединяющие обработку изображений и текста, демонстрируют колоссальный потенциал, особенно в таких критически важных областях, как медицина. Способность анализировать одновременно визуальные данные, например, рентгеновские снимки или результаты гистологических исследований, и текстовые описания симптомов или анамнеза открывает новые возможности для ранней диагностики, персонализированного лечения и повышения эффективности медицинской помощи. Эти системы способны выявлять едва заметные закономерности, которые могут быть упущены из виду врачом-человеком, а также автоматизировать рутинные задачи, освобождая время специалистов для более сложных случаев. В перспективе, мультимодальный ИИ может значительно улучшить качество и доступность медицинской помощи по всему миру, предоставляя более точные диагнозы и разрабатывая индивидуальные планы лечения для каждого пациента.

Достижение подлинного визуального понимания искусственным интеллектом представляет собой сложную задачу, осложняемую непредсказуемым поведением моделей. Несмотря на впечатляющие успехи в обработке изображений и текста, способность машин действительно понимать визуальную информацию, а не просто распознавать паттерны, остается под вопросом. Исследования показывают, что модели часто демонстрируют неожиданные реакции на незнакомые или неоднозначные изображения, что свидетельствует о недостатке глубинной семантической обработки. Эти непредсказуемые проявления поведения могут возникать из-за ограниченности обучающих данных, предвзятости алгоритмов или просто неспособности модели к обобщению знаний, что требует дальнейших исследований и разработки более надежных и интерпретируемых систем искусственного интеллекта.

Исследования показывают, что высокие результаты, демонстрируемые современными мультимодальными моделями искусственного интеллекта на стандартных бенчмарках, могут быть обманчивы. Средний показатель, получивший название «Mirage Score», достигает 0.70-0.99, однако это не всегда отражает истинное понимание визуальной информации. Модели способны успешно справляться с задачами, используя поверхностные корреляции и закономерности в данных, вместо того чтобы действительно «видеть» и интерпретировать изображение. Таким образом, высокие оценки могут создавать иллюзию компетентности, скрывая отсутствие глубокого семантического понимания и потенциальные ошибки в реальных сценариях применения.

Исследования выявили тревожный феномен, получивший название “Эффект миража”, демонстрирующий способность мультимодальных моделей искусственного интеллекта к “галлюцинациям” визуальной информации. Это проявляется в том, что модели могут генерировать описания изображений, содержащие объекты или детали, которые фактически отсутствуют на самом изображении. Несмотря на кажущуюся точность, полученные результаты могут быть ложными, поскольку модель полагается на поверхностные корреляции, а не на истинное понимание визуального контента. Этот эффект подчеркивает необходимость критической оценки результатов, предоставляемых такими системами, и указывает на то, что высокая точность на стандартных бенчмарках не всегда гарантирует надежное визуальное восприятие и интерпретацию.

Эксперименты показали, что современные ИИ-модели, включая Gemini, Claude и GPT, демонстрируют обманчиво высокие результаты на мультимодальных бенчмарках благодаря феномену «миража» — способности отвечать на вопросы без использования визуального ввода, что подтверждается сравнением с супер-угадывателем и метрикой Mirage score, оценивающей зависимость моделей и самих бенчмарков от этого эффекта.

Разоблачение иллюзии: Обнаружение и определение проблемы

Эффект миража демонстрирует, что модели искусственного интеллекта способны отвечать на вопросы, касающиеся изображений, не осуществляя при этом фактического «зрения» или визуального анализа. Это означает, что ответы могут быть сгенерированы исключительно на основе языковых закономерностей в данных обучения, а не на основе понимания визуального содержания. Данное явление ставит под сомнение подлинность визуального рассуждения в современных системах ответа на вопросы по изображениям и требует разработки более строгих методов оценки, способных отличать реальное визуальное понимание от статистического сопоставления текста.

Для выявления «эффекта миража» в системах визуального вопросно-ответного анализа (VQA) разработаны специализированные бенчмарки, такие как Phantom-0. Эти бенчмарки построены на принципе предоставления вопросов, не имеющих соответствующих изображений. Цель — определить, способна ли модель ответить на вопрос, основываясь исключительно на лингвистическом анализе вопроса, а не на реальном «зрении» или обработке визуальной информации. Отсутствие изображения вынуждает модель полагаться на статистические закономерности в данных обучения и потенциально раскрывает случаи, когда ответы генерируются без фактического понимания визуального контекста.

Разработанная нами текстовая модель, получившая название Super-Guesser и обученная на наборе данных ReXVQA, продемонстрировала способность отвечать на вопросы, требующие визуального понимания, без получения каких-либо визуальных данных. В ходе тестирования на сложном бенчмарке в области радиологии грудной клетки, Super-Guesser показала результаты, превосходящие как современные мультимодальные модели, так и квалифицированных радиологов. Данный результат указывает на то, что текущие методы оценки систем визуального вопросно-ответного анализа (VQA) могут быть подвержены ошибкам, поскольку модели способны достигать высоких показателей, полагаясь исключительно на текстовые корреляции, а не на реальное визуальное рассуждение.

Способность текстовой модели, обученной на ReXVQA, успешно выполнять задачи визуального вопросно-ответного анализа (VQA) без визуального ввода указывает на фундаментальный недостаток в текущих методах оценки VQA-систем. Существующие бенчмарки, даже сложные, такие как те, что используются в радиологии, не всегда способны отличить реальное визуальное рассуждение от способности модели к статистическому сопоставлению текста, что приводит к завышенным оценкам производительности. Необходимость разработки более надежных методов оценки становится очевидной, так как существующие подходы не гарантируют, что система действительно «понимает» визуальную информацию, а не просто воспроизводит корреляции между текстом и ответами.

Эксперименты с GPT-5.1 на бенчмарках MicroVQA, MedXpertQA-MM и MMMU-Pro показали, что использование режима «миража» (имитации наличия изображений) значительно превосходит или соответствует стратегии «угадывания» (признания отсутствия изображений) на медицинских задачах и обеспечивает более высокую производительность по 23 из 29 категорий MMMU-Pro.

B-Clean: Обеспечение справедливой оценки мультимодальных моделей

B-Clean представляет собой систему, разработанную для фильтрации вопросов из бенчмарков, требующих визуального ввода для ответа. Основная задача системы — исключить вопросы, на которые можно ответить, опираясь исключительно на текстовые подсказки, без анализа визуальной информации. Это достигается путем идентификации и удаления вопросов, ответы на которые не зависят от содержимого изображения или видео, обеспечивая тем самым более точную оценку способности модели к визуальному рассуждению и интеграции визуальной информации с текстовыми данными.

Механизм B-Clean обеспечивает более точную оценку способностей модели к визуальному мышлению путем исключения вопросов, на которые можно ответить исключительно на основе текстовых подсказок. Традиционные мультимодальные бенчмарки часто содержат вопросы, требующие лишь обработки текста, что позволяет моделям демонстрировать кажущуюся компетентность без фактического использования визуальной информации. Устраняя такие вопросы, B-Clean фокусирует оценку на реальной способности модели интегрировать и интерпретировать визуальные данные для решения задач, тем самым предоставляя более надежные результаты и выявляя истинный уровень развития визуального интеллекта в ИИ.

Для адаптации к конкретным задачам и повышения эффективности, B-Clean использует метод Low-Rank Adaptation (LoRA). LoRA позволяет проводить точную настройку модели, изменяя лишь небольшое количество параметров, что значительно снижает потребность в вычислительных ресурсах и объеме памяти по сравнению с полной переобучающей настройкой. Это делает процесс адаптации более доступным и экономичным, позволяя применять B-Clean на широком спектре оборудования и с ограниченными ресурсами, при этом сохраняя высокую точность оценки визуального рассуждения.

В рамках тестирования на различных бенчмарках, применение B-Clean позволяет исключить от 70% до 80% вопросов, подверженных “Эффекту миража” (Mirage Effect). Это достигается за счет фильтрации вопросов, на которые можно ответить, опираясь исключительно на текстовые подсказки, без необходимости анализа визуального контента. Таким образом, оценка фокусируется непосредственно на способности модели интегрировать и интерпретировать визуальную информацию, что обеспечивает более точную и объективную оценку её реальных возможностей в области мультимодального анализа.

Метод B-Clean позволяет оценить мультимодальные ИИ-модели, выявляя и исключая скомпрометированные вопросы с помощью оценки в режиме «мираж», что позволяет получить очищенную версию эталонного набора данных, предназначенную исключительно для оценки визуального понимания, и при этом уменьшить влияние скомпрометированных вопросов на результаты оценки и изменить ранжирование моделей.

Мультимодальный ИИ в медицинской визуализации: Новая эра диагностики

Медицинская визуализация, в частности рентгенография грудной клетки, переживает революционные изменения благодаря развитию мультимодального искусственного интеллекта. Вместо анализа изображений изолированно, современные алгоритмы способны интегрировать визуальные данные с текстовыми отчетами врачей, анамнезом пациента и даже генетической информацией. Такой комплексный подход позволяет значительно повысить точность диагностики, особенно в сложных случаях, когда признаки заболевания слабо выражены или неоднозначны. Мультимодальный ИИ способен выявлять закономерности, которые могут ускользнуть от внимания даже опытного специалиста, что открывает новые возможности для раннего выявления заболеваний и разработки персонализированных планов лечения, значительно улучшая прогнозы для пациентов.

Интеграция визуальных данных, таких как рентгеновские снимки или результаты МРТ, с текстовыми отчётами врачей и полной историей болезни пациента открывает новые возможности для повышения точности и скорости диагностики в радиологии и патологии. Современные алгоритмы искусственного интеллекта способны выявлять закономерности и корреляции, которые могут быть упущены при традиционном анализе, объединяя информацию из разных источников. Это позволяет не только более точно определять наличие заболевания, но и прогнозировать его развитие, а также подбирать наиболее эффективные методы лечения, учитывая индивидуальные особенности каждого пациента. Такой комплексный подход способствует снижению вероятности диагностических ошибок и улучшению качества медицинской помощи.

Внедрение многомодального искусственного интеллекта в медицинскую визуализацию требует особого внимания к феномену, известному как “эффект миража”. Этот эффект, возникающий при интерпретации данных, полученных из различных источников — изображений, текстовых отчетов и истории болезни пациента — может приводить к ложным выводам и, как следствие, к неправильному диагнозу или лечению. Исследования показали, что алгоритмы, обученные на несогласованных данных или не учитывающие контекст, склонны к “видению” паттернов, которые на самом деле отсутствуют, или к игнорированию критически важной информации. Поэтому, для обеспечения безопасности пациентов и повышения точности диагностики, крайне важно разрабатывать и внедрять методы, позволяющие выявлять и нейтрализовать “эффект миража”, а также обеспечивать согласованность и достоверность данных, используемых в процессе анализа.

Надежный мультимодальный анализ открывает перспективы для ранней диагностики заболеваний и разработки индивидуальных планов лечения. Интегрируя данные визуализации, текстовые отчеты и историю болезни пациента, системы искусственного интеллекта способны выявлять едва заметные признаки патологий на самых ранних стадиях, когда лечение наиболее эффективно. Такой подход позволяет перейти от реактивной медицины, направленной на устранение уже проявившихся симптомов, к проактивной, ориентированной на предотвращение развития болезни. Более того, учитывая уникальные характеристики каждого пациента — генетические особенности, образ жизни, сопутствующие заболевания — мультимодальный анализ способствует созданию персонализированных стратегий лечения, максимизирующих положительный эффект и минимизирующих побочные эффекты. Это, в свою очередь, ведет к повышению качества жизни пациентов и оптимизации ресурсов здравоохранения.

Анализ ответов Gemini-3-Pro на запросы описания и диагностики по несуществующим изображениям медицинских исследований (МРТ головного мозга, рентген грудной клетки, ЭКГ, патологические препараты, фотографии кожи) показывает, что несмотря на часто встречающиеся ответы «Норма» и «Диагноз не найден», предсказания патологий встречаются значительно чаще и требуют дальнейшей проверки, особенно те, что отмечены как требующие немедленного вмешательства.

Исследование, представленное в данной работе, выявляет тревожную тенденцию в современных мультимодальных системах искусственного интеллекта. Модели демонстрируют впечатляющую производительность в задачах визуального вопросно-ответного анализа, однако, как показано, эта производительность может быть обманчивой. Они способны достигать высоких результатов, не прибегая к фактическому анализу изображения, а полагаясь на усвоенные ассоциации и предвзятости — так называемый ‘эффект миража’. Это подрывает доверие к существующим метрикам оценки, поскольку они не отражают реальное визуальное рассуждение. Как точно заметил Давид Гильберт: «В математике не бывает абсолютной истины, только доказанные и недоказанные утверждения». Подобно этому, в области ИИ, высокие баллы не всегда свидетельствуют о подлинном понимании.

Что Дальше?

Представленная работа обнажает фундаментальную проблему оценки в области мультимодального искусственного интеллекта. Достижение высоких показателей без фактической обработки визуальной информации — это не триумф алгоритма, а скорее указание на несостоятельность текущих метрик. Очевидно, что требуется переосмысление критериев оценки, переход от измерения поверхностного соответствия к глубокому пониманию семантической связи между текстом и изображением. Иначе, подобное “зеркальное отражение” успеха — лишь иллюзия, мираж, скрывающий истинную неспособность к визуальному рассуждению.

Необходимо разработать бенчмарки, устойчивые к манипуляциям, способные выявлять и исключать “эффект миража”. Перспективным направлением представляется создание задач, требующих не просто идентификацию объектов, а понимание их взаимосвязей, пространственных отношений и динамики сцены. Более того, важно исследовать возможность создания алгоритмов, способных к “самодиагностике” — выявлению моментов, когда решение основано на статистических закономерностях, а не на реальном визуальном анализе.

В конечном счете, достижение подлинного мультимодального интеллекта требует не увеличения количества параметров модели, а повышения плотности смысла. Ненужное — это насилие над вниманием. Простота и ясность — вот истинные критерии совершенства. Задача состоит не в том, чтобы создать алгоритм, который “видит”, а в том, чтобы создать алгоритм, который понимает.

Оригинал статьи: https://arxiv.org/pdf/2603.21687.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-24 21:20