Иллюзии восприятия: как обмануть зрение человека и машины

Автор: Денис Аветисян

Новая методика позволяет создавать изображения, которые намеренно вызывают неоднозначность в интерпретации, раскрывая различия в том, как человек и искусственный интеллект видят мир.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

В рамках исследования когнитивных процессов испытуемые выполняли задачу вынужденного выбора между двумя альтернативами, оценивая неоднозначные изображения, допускающие интерпретацию как утка или кролик, в ходе серии из трехсот испытаний для каждого участника, что позволило оценить перцептивные механизмы, лежащие в основе зрительного восприятия.

Исследование представляет фреймворк для генерации семантически неоднозначных изображений с использованием диффузионных моделей и психофизических методов для изучения предвзятостей в визуальном восприятии человека и машинного зрения.

Неоднозначность визуальных образов ставит под вопрос границы человеческого и машинного восприятия. В работе, озаглавленной ‘A Framework for Generating Semantically Ambiguous Images to Probe Human and Machine Perception’, предложен новый подход к генерации и анализу семантически неоднозначных изображений с использованием диффузионных моделей и психофизических методов. Полученные результаты демонстрируют различия в перцептивных искажениях и чувствительности между человеком и классификаторами машинного зрения, указывая на систематические расхождения в интерпретации визуальной информации. Способствует ли данный фреймворк более глубокому пониманию механизмов восприятия и созданию более надежных и интерпретируемых моделей компьютерного зрения?

Иллюзия восприятия: Когда мозг рисует реальность

Визуальное восприятие далеко не всегда является однозначным процессом; изображения часто обладают внутренней неоднозначностью, что ярко демонстрирует знаменитая иллюзия «Утка-Кролик». Данное явление указывает на то, что мозг активно конструирует реальность, а не просто пассивно её регистрирует. В зависимости от контекста и предыдущего опыта, один и тот же набор визуальных стимулов может интерпретироваться совершенно по-разному, порождая альтернативные, но одинаково правдоподобные представления об окружающем мире. Подобная изменчивость восприятия подчеркивает сложность обработки визуальной информации и необходимость учета субъективных факторов при моделировании зрительной системы.

Понимание механизмов разрешения неоднозначности в зрительном восприятии имеет первостепенное значение для создания надежного искусственного интеллекта. Человеческий мозг обладает удивительной способностью быстро и эффективно интерпретировать сложные и неоднозначные визуальные сцены, переключаясь между различными интерпретациями в зависимости от контекста и предыдущего опыта. Воспроизведение этой способности в машинных системах позволит создавать более гибкие и адаптивные алгоритмы компьютерного зрения, способные функционировать в реальных условиях, где изображения часто бывают неполными, зашумленными или многозначными. Разработка систем, способных к аналогичному разрешению неоднозначности, значительно повысит надежность и точность таких приложений, как автономное вождение, робототехника и медицинская диагностика, делая их менее восприимчивыми к ошибкам, вызванным нечеткостью визуальной информации.

Современные методы анализа изображений сталкиваются с существенной проблемой при количественной оценке и целенаправленной манипуляции семантической неоднозначностью. Несмотря на значительный прогресс в области компьютерного зрения, существующие алгоритмы зачастую не способны точно определить степень неопределенности восприятия, возникающую при интерпретации изображений, таких как иллюзия утки-кролика. Это ограничивает возможности создания реалистичных и устойчивых моделей зрительного восприятия, поскольку отсутствие контроля над семантической неоднозначностью препятствует изучению механизмов, лежащих в основе разрешения этих неоднозначностей мозгом и искусственными системами. В результате, развитие более продвинутых и надежных систем искусственного интеллекта, способных к гибкому и контекстно-зависимому визуальному восприятию, замедляется.

Классическая иллюзия «утка-кролик» демонстрирует перцептивную неоднозначность, когда одно и то же изображение может восприниматься как утка или кролик, что послужило основой для нашего метода создания подобных неоднозначных стимулов.

Генерация спектра перцептивных интерпретаций

Для генерации изображений используется модель диффузии «текст-в-изображение», а именно Stable Diffusion v1.5. Данная модель функционирует посредством получения текстовых запросов (prompts) в качестве входных данных и последующего создания соответствующего визуального представления. Процесс генерации основан на итеративном удалении шума из случайного набора пикселей, направляемом текстовым запросом, что позволяет создавать изображения, соответствующие заданному описанию. Stable Diffusion v1.5 использует латентное пространство для снижения вычислительных затрат и повышения эффективности процесса генерации.

Для генерации непрерывной серии изображений используется кодировщик текста CLIP и линейная интерполяция между текстовыми запросами. CLIP преобразует текстовые описания в векторное представление, а линейная интерполяция позволяет плавно переходить между этими векторами, представляющими, например, понятия «кролик» и «слон». В результате, при последовательном изменении текстового запроса от одного понятия к другому, модель генерирует серию изображений, демонстрирующих постепенный переход между этими понятиями. Этот метод обеспечивает создание визуального континуума, отражающего семантическую связь между исходными запросами.

Механизм Classifier-Free Guidance позволяет регулировать степень соответствия сгенерированных изображений заданному семантическому содержанию. В процессе диффузионной генерации изображений модель обучается одновременно предсказывать шум как для условных (на основе текстового запроса), так и для безусловных данных. Параметр Guidance Scale (шкала направления) контролирует соотношение между этими условными и безусловными предсказаниями. Увеличение Guidance Scale усиливает влияние текстового запроса, заставляя изображение более точно соответствовать заданной семантике, но может приводить к снижению разнообразия и появлению артефактов. Наоборот, уменьшение Guidance Scale снижает влияние запроса, увеличивая вариативность, но и отдаляясь от исходного семантического содержания.

Эксперимент использовал 300 стимулов, представляющих собой комбинацию слона и кролика, с изменяющимся соотношением семантического смешения α и масштабом управления (GS).

Количественная оценка сдвигов восприятия с помощью психофизики

Для количественной оценки восприятия сгенерированных стимулов была применена психофизика, а именно метод психометрической функции. Этот подход позволил измерить реакцию испытуемых на стимулы, устанавливая зависимость между физическими характеристиками стимулов и субъективными ощущениями наблюдателей. Психометрическая функция, выражаемая как $p(x)$ , где $p$ — вероятность корректного ответа, а $x$ — интенсивность стимула, позволила определить порог чувствительности и оценить степень различимости стимулов для каждого испытуемого. Данные, полученные с помощью психофизических тестов, служили основой для анализа смещений в восприятии, вызванных изменениями в сгенерированных изображениях.

Для количественной оценки семантического содержания каждого изображения использовались классификаторы, обученные на наборе данных ImageNet, включая архитектуры ResNet-50 и ConvNeXt-Base. Эти классификаторы выдают вероятности принадлежности изображения к различным классам (Softmax probabilities), представляющие собой вектор, отражающий степень соответствия изображения каждому из 1000 классов ImageNet. Анализ этих вероятностей позволил получить численную оценку семантического профиля каждого сгенерированного стимула, что, в свою очередь, позволило сопоставить изменения в семантике изображения с изменениями в восприятии наблюдателями.

Анализ психофизических данных позволил нам количественно оценить чувствительность наблюдателей к изменениям в стимульном континууме, которая варьировалась от 3.94 до 6.25 при увеличении шкалы направляющего воздействия (guidance scale). Параллельно, была выявлена систематическая предвзятость в ответах, выраженная средним смещением в -0.015, что указывает на незначительное предпочтение интерпретации стимула как «кролик». Сопоставление чувствительности и предвзятости вдоль континуума позволило отследить, как меняются восприятия и интерпретации стимулов при плавной трансформации их характеристик.

Психометрическая функция демонстрирует, что смешивание семантических признаков (α) влияет на смещение и чувствительность, а также на примеры стимулов в зависимости от масштаба направляющих сигналов (GS).

Обобщаемость и перспективы дальнейших исследований

Эксперимент с изображением «Слона-Кролика» подтвердил применимость разработанной методологии к более сложным и неоднозначным визуальным стимулам, выходя за рамки первоначального примера «Утки-Кролика». Данное исследование продемонстрировало, что предложенный подход не является специфичным для конкретного изображения, а обладает более широкой применимостью для анализа перцептивной амбивалентности. Успешное применение к новому визуальному стимулу усиливает уверенность в надежности и универсальности разработанного фреймворка, открывая возможности для дальнейшего исследования механизмов разрешения конфликтующих интерпретаций в зрительной системе.

Исследование продемонстрировало, что классификаторы, основанные на машинном обучении, обладают существенно более высокой чувствительностью (в среднем более 6.25) в распознавании двусмысленных изображений по сравнению с человеческим восприятием. Это указывает на то, что модели способны более четко различать семантические границы, то есть определять, к какой категории относится изображение. При этом, в отличие от моделей, у людей наблюдалась меньшая предвзятость в интерпретации неоднозначных стимулов, что свидетельствует о большей гибкости и способности к комплексному анализу. Данный контраст подчеркивает разницу между машинным и человеческим восприятием, где модели стремятся к максимальной точности, а люди — к адаптивности и контекстуальному пониманию.

Предложенный подход представляет собой мощный новый инструмент для изучения нейронных основ перцептивной неоднозначности и механизмов, посредством которых мозг разрешает конфликтующие интерпретации. Исследование позволяет перейти от простых зрительных иллюзий к анализу сложных процессов, происходящих в коре головного мозга при столкновении с неопределенностью. Возможность количественно оценивать степень неоднозначности и сопоставлять её с нейронной активностью открывает перспективы для понимания, как формируется наше восприятие реальности и как мозг выбирает наиболее вероятную интерпретацию. Данный метод может быть использован для изучения широкого спектра когнитивных процессов, связанных с неоднозначностью, таких как распознавание образов, понимание языка и принятие решений, предоставляя уникальную возможность заглянуть в «черный ящик» сознания и пролить свет на фундаментальные принципы работы мозга.

Дальнейшие исследования планируется направить на расширение рамок данной методологии, применяя ее к более сложным и неоднозначным визуальным стимулам. Особое внимание будет уделено изучению индивидуальных различий в восприятии, анализу того, как различные люди интерпретируют амбивалентные изображения. Полученные данные могут оказать значительное влияние на разработку алгоритмов искусственного интеллекта, позволяя создавать системы, способные более эффективно разрешать конфликтующие интерпретации и приближающиеся к гибкости и адаптивности человеческого мозга в обработке визуальной информации. Исследователи надеются, что понимание механизмов, лежащих в основе субъективного восприятия, позволит создавать более интуитивно понятные и удобные интерфейсы для взаимодействия человека и машины.

Figure 7:Bias for the duck-rabbit condition across guidance scales for humans and classifier models.Grouped bars show bias values computed asPSE−0.5\mathrm{PSE}-0.5for each model, with colors indicating different guidance scales (GS). All observers showed a negative bias, indicating they were more likely to see a rabbit than a duck even at a semantic mixing ratioα\alpha= 0.5.

Что Дальше?

Представленная работа, хотя и демонстрирует возможность генерации семантически неоднозначных изображений, лишь слегка приоткрывает завесу над пропастью между человеческим и машинным восприятием. Вероятно, в ближайшем будущем возникнет необходимость не в усложнении моделей, а в разработке метрик, способных оценивать качество неоднозначности, а не только её наличие. Иначе рискуем получить бесконечное генерирование визуального шума, который машина посчитает интересным, а человек — просто раздражающим.

Очевидно, что текущая опора на ImageNet, как на базовый набор данных, является ахиллесовой пятой. По мере расширения и усложнения датасетов, а также появления новых архитектур, «семантическая неоднозначность» будет смещаться, меняя свои проявления. Скорее всего, потребуется разработка адаптивных методов оценки, способных учитывать контекст и культурные особенности. Нам не нужно больше алгоритмов, способных «видеть» неоднозначность — нам нужно меньше иллюзий, что машина понимает её суть.

В конечном итоге, данное направление исследований, как и большинство «революционных» подходов, неизбежно столкнется с проблемой масштабируемости и практического применения. Элегантные решения, основанные на диффузионных моделях и психофизике, рано или поздно станут очередным техдолгом, требующим постоянной поддержки и адаптации. Каждая архитектура, даже самая изящная, со временем превращается в анекдот.

Оригинал статьи: https://arxiv.org/pdf/2603.24730.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-27 21:37