Автор: Денис Аветисян
Новое исследование раскрывает механизмы, лежащие в основе склонности моделей, объединяющих зрение и язык, к генерации галлюцинаций, когда текстовые подсказки противоречат визуальной информации.
Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.
Купить акции "голубых фишек"
Работа посвящена выявлению конкретных «голов внимания», ответственных за приоритет текстовых подсказок над визуальными данными, и демонстрирует, что их отключение улучшает визуальное обоснование и снижает количество галлюцинаций.
Несмотря на впечатляющие возможности современных мультимодальных моделей, они часто склонны к «галлюцинациям», отдавая приоритет текстовым подсказкам над визуальными данными. В работе ‘Mechanisms of Prompt-Induced Hallucination in Vision-Language Models’ исследованы механизмы, лежащие в основе этого явления, в контролируемом эксперименте с подсчетом объектов. Выявлено, что удаление небольшого числа ключевых голов внимания значительно снижает склонность моделей к подтверждению неверных текстовых утверждений, усиливая коррекцию на основе визуальной информации. Какие внутренние факторы определяют эту предвзятость, и как можно разработать более надежные и «заземленные» мультимодальные системы?
Иллюзия Понимания: Галюцинации, Вызванные Подсказками
Визуально-языковые модели (ВЯМ) стремительно набирают популярность, находя применение в самых разных областях — от автоматического описания изображений до помощи в принятии решений. Однако, несмотря на впечатляющие возможности, эти модели склонны к феномену, получившему название «галлюцинации» — уверенному предоставлению неверных ответов. Это проявляется в том, что модель может с высокой степенью убедительности утверждать, что на изображении присутствует объект, которого там нет, или описывать сцену, не соответствующую визуальной информации. Несмотря на способность обрабатывать изображения, ВЯМ часто выдают ложные сведения, представляя их как факты, что ставит под вопрос надежность подобных систем в критически важных приложениях и требует разработки методов для смягчения этой проблемы.
Явление, известное как галлюцинация, вызванная подсказкой (Prompt-Induced Hallucination или PIH), возникает, когда языковые модели, обрабатывающие изображения, склонны отдавать приоритет текстовым инструкциям, даже если они противоречат визуальной информации. Особенно ярко это проявляется в задачах, требующих подсчета объектов на изображении. Модели демонстрируют тенденцию «видеть» количество объектов, указанное в текстовой подсказке, игнорируя реальное количество, представленное на самом изображении. Данный эффект указывает на то, что модели не просто ошибочно интерпретируют визуальные данные, а активно подчиняют их текстовому контексту, что приводит к уверенно неверным ответам, даже когда визуальное свидетельство очевидно.
Исследования показали, что намеренно несоответствующие запросы, указывающие неверное количество объектов на изображении, надёжно провоцируют феномен Prompt-Induced Hallucination (PIH) в визуально-языковых моделях. Этот эффект демонстрирует фундаментальный недостаток в способе, которым эти модели интегрируют визуальную информацию и текстовые инструкции. Вместо того, чтобы опираться на фактическое содержание изображения, модели склонны отдавать приоритет тексту запроса, даже если он противоречит очевидному. Надежность, с которой происходит эта ошибка, подчеркивает, что проблема заключается не в неспособности модели обрабатывать визуальные данные, а в её чрезмерной зависимости от текстовых подсказок, что приводит к уверенному, но неверному ответу. Данный механизм указывает на необходимость разработки более надежных методов интеграции мультимодальной информации, чтобы модели могли критически оценивать и согласовывать различные источники данных.
Исследования показали, что проблема «галлюцинаций» в визуально-языковых моделях (VLMs) заключается не в неспособности обрабатывать визуальную информацию, а в чрезмерной зависимости от текстовых подсказок, даже если они противоречат очевидным визуальным данным. Модели демонстрируют склонность к принятию неверных ответов, основанных на предвзятых или ошибочных текстовых инструкциях, игнорируя при этом подтвержденные визуальные доказательства. Данное явление указывает на фундаментальный недостаток в механизмах интеграции информации, используемых этими моделями, где текстовый ввод получает приоритет над фактическим содержанием изображения, что приводит к уверенно высказываемым, но ложным утверждениям.

Разложение Ошибки: Следование Подсказкам и Ранняя Обработка
Склонность больших языковых моделей (LLM) следовать инструкциям в запросе, даже если они приводят к неверным результатам, является прямой причиной феномена Prompt-Induced Hallucinations (PIH). Данное поведение, известное как следование запросу (prompt-following), проявляется в том, что модель склонна воспроизводить числовую информацию, содержащуюся в запросе, даже если эта информация не соответствует фактическим данным или здравому смыслу. Это не является следствием общей неспособности модели к рассуждениям, а специфической реакцией на структуру и содержание входного запроса, что приводит к включению неверных данных в процесс генерации ответа. В результате модель активно использует предоставленную, но ошибочную информацию, подтверждая ее в сгенерированном тексте, даже если у нее есть доступ к корректным данным.
Начальные слои трансформаторных сетей демонстрируют повышенную восприимчивость к включению численной информации, содержащейся в запросе, что приводит к формированию смещенного внутреннего представления данных. Исследования показывают, что именно в этих слоях происходит активное усвоение формальных признаков и числовых значений из запроса, даже если они не соответствуют фактическим данным. Данный процесс искажает начальное представление о задаче, влияя на последующие вычисления и приводя к ошибкам в конечном результате. Наблюдается, что влияние запроса на внутреннее представление данных наиболее значительно в первые несколько слоев трансформатора, после чего его эффект постепенно снижается, но сохраняется на протяжении всей обработки.
Явления «мягкого копирования» (Soft Copying) и «копирования формата» (Format Copying) усугубляют проблему Prompt Induced Hallucinations (PIH). Модели, склонные к воспроизведению структуры и формулировок, представленных в запросе, некритически перенимают не только семантику, но и формальные признаки входных данных. Это приводит к тому, что числовая информация, случайно включенная в запрос (например, в примерах или инструкциях), становится частью внутренней репрезентации модели и воспроизводится в ответах, даже если эта информация не соответствует действительности или логике задачи. Модели демонстрируют высокую восприимчивость к повторению синтаксических конструкций и форматов, что усиливает эффект PIH и приводит к генерации неточных или вводящих в заблуждение результатов.
Анализ показывает, что проблема Prompt-Induced Hallucinations (PIH) не является следствием глобальной неисправности всей языковой модели. Данные свидетельствуют о том, что PIH возникает преимущественно на начальных этапах обработки запроса, в ранних слоях трансформаторной сети. Это позволяет предположить, что ошибка локализована и связана с особенностями формирования внутреннего представления информации на этих этапах, а не с неспособностью модели к общему логическому выводу или генерации текста. Последующие слои модели, как правило, демонстрируют более высокую степень корректности, что подтверждает гипотезу о локализованной природе проблемы.

Внимание как Рычаг: Снижение Галюцинаций
В архитектуре современных моделей машинного зрения, внимание (attention) реализуется посредством специальных компонентов — attention heads. Эти головы внимания позволяют модели концентрироваться на релевантных участках входного изображения, игнорируя несущественную информацию. Именно эта способность к селективному фокусу делает attention heads ключевыми в борьбе с проблемой галлюцинаций (PIH — Pathological Image Hallucinations), когда модель генерирует ответы, не соответствующие визуальному контенту. Эффективное управление вниманием позволяет модели более точно связывать свои ответы с фактическими объектами и деталями на изображении, что является критически важным для повышения точности и надежности системы.
Метод “Attention Knockout”, заключающийся в отключении отдельных attention heads, продемонстрировал возможность снижения частоты проявления PIH (Parameter-Induced Hallucinations) до 54.54%. Этот результат указывает на прямую связь между активностью определенных attention heads и возникновением галлюцинаций в моделях. Эксперименты показали, что деактивация конкретных голов внимания приводит к статистически значимому уменьшению числа неверных ответов, подтверждая их вклад в формирование ошибочных выводов и необходимость дальнейшего исследования роли отдельных attention heads в механизмах генерации галлюцинаций.
Стратегическая модуляция механизмов внимания позволяет повысить приоритет визуального обоснования ответов и восстановить корректный подсчет объектов на изображении. Экспериментальные данные демонстрируют, что целенаправленное изменение работы attention heads приводит к увеличению доли верных совпадений при подсчете объектов до 78%. Данный подход заключается в направленном усилении внимания к релевантным визуальным признакам и подавлении отвлекающих факторов, что способствует более точной привязке ответов модели к фактическому содержанию изображения и, как следствие, повышению точности подсчета.
Экспериментальные данные демонстрируют, что целенаправленное воздействие на механизмы внимания в нейронных сетях значительно улучшает визуальное обоснование ответов модели. Вмешательства, основанные на манипулировании вниманием (attention heads), позволяют привязать генерируемые ответы к фактическому содержанию изображения, снижая склонность модели к галлюцинациям и повышая точность определения количества объектов на изображении. В частности, установлено, что подобные интервенции способны увеличить долю корректно определенных счетчиков объектов на изображениях до 78%, что свидетельствует о прямой связи между вниманием и способностью модели к визуальному обоснованию.

Архитектурная Устойчивость и Обобщение
Исследования архитектур многомодальных моделей (VLM) выявили существенные различия в их устойчивости к феномену галлюцинаций, вызванных подсказками (Prompt-Induced Hallucinations, PIH). В частности, модель Qwen2-VL продемонстрировала повышенную восприимчивость к PIH, что выражается в генерации ответов, не соответствующих визуальному контенту. В то же время, архитектура LLaVA-OneVision показала значительно более высокую устойчивость к подобным ошибкам. Данный контраст подчеркивает критическую роль архитектурного дизайна в формировании надежности и точности VLM, указывая на необходимость разработки моделей, способных эффективно интегрировать и верифицировать информацию из визуальных и текстовых источников, минимизируя влияние потенциально вводящих в заблуждение текстовых подсказок.
Для оценки эффективности методов смягчения галлюцинаций, вызванных подсказками (Prompt-Induced Hallucinations — PIH), была разработана задача предсказания цвета, являющаяся расширением задачи подсчета объектов. Эта задача позволила проверить, способны ли разработанные техники обобщаться за пределы простой задачи количественной оценки. Результаты показали, что применение специальных “PIH-голов” (PIH heads) позволило добиться впечатляющего снижения галлюцинаций, вызванных текстовыми подсказками, — до 94.25%. Данное снижение указывает на то, что предложенные методы не ограничиваются лишь коррекцией ошибок в задачах подсчета, но способны значительно повысить надежность визуально-языковых моделей (VLM) в более сложных сценариях, требующих точной интерпретации визуальной информации.
Исследования показали, что архитектурные особенности визуально-языковых моделей (VLM) оказывают значительное влияние на их устойчивость к феномену prompt-induced hallucinations (PIH), или галлюцинациям, вызванным запросом. Модели Janus-Pro и LLaVA-OneVision демонстрируют повышенную способность избегать PIH по сравнению с другими архитектурами, такими как Qwen2-VL. Это указывает на то, что продуманный дизайн модели, вероятно, играет ключевую роль в снижении склонности к генерации неверных ответов, основанных на вводящих в заблуждение текстовым подсказкам. Повышенная устойчивость к PIH в данных моделях подчеркивает важность разработки VLM, которые отдают приоритет визуальным доказательствам и минимизируют зависимость от потенциально ошибочных текстовых входных данных, что открывает путь к более надежным и точным системам искусственного интеллекта.
Исследования архитектуры LLaVA-OneVision продемонстрировали, что удаление специализированных «голов» для смягчения галлюцинаций, вызванных текстовыми подсказками (Prompt-Induced Hallucinations, PIH), привело к заметному изменению в механизме внимания модели. В частности, наблюдалось увеличение «массы внимания» к изображению на 12%. Этот эффект свидетельствует о том, что модель, лишенная инструментов для активного подавления текстовых искажений, переориентируется на визуальную информацию как основной источник доказательств. Иными словами, происходит более глубокое «заземление» модели в визуальных данных, что позволяет ей меньше полагаться на потенциально вводящие в заблуждение текстовые подсказки и, как следствие, повышает надежность её ответов.
Полученные результаты подчеркивают критическую важность разработки визуально-языковых моделей (VLM), которые отдают приоритет визуальным данным и снижают зависимость от потенциально вводящих в заблуждение текстовых подсказок. Исследования показывают, что архитектурные решения оказывают значительное влияние на устойчивость моделей к так называемым «галлюцинациям», вызванным подсказками (Prompt-Induced Hallucinations — PIH). Модели, спроектированные с акцентом на визуальное обоснование, демонстрируют повышенную надежность и точность, особенно в сложных задачах, требующих интерпретации изображений. Снижение зависимости от текстовых подсказок позволяет VLM более эффективно использовать доступную визуальную информацию, минимизируя риск генерации неверных или необоснованных ответов, и, как следствие, повышая общую надежность и практическую ценность этих систем.

Исследование механизмов, приводящих к галлюцинациям в мультимодальных моделях, демонстрирует критическую важность внимания к деталям. Авторы выявляют конкретные attention heads, которые, отдавая приоритет текстовым подсказкам, игнорируют визуальные данные, приводя к неверным ответам. Подобный подход к анализу, сосредоточенный на выявлении и устранении узких мест в архитектуре модели, подчеркивает необходимость глубокого понимания её внутренних процессов. Как однажды заметил Эндрю Ын: «Мы должны сосредоточиться на создании систем машинного обучения, которые могут учиться и обобщать, а не просто запоминать данные». Именно такое стремление к обобщению и лежит в основе решения проблемы визуального обоснования и снижения галлюцинаций, представленного в данной работе.
Куда же дальше?
Представленное исследование, выявившее роль отдельных голов внимания в возникновении галлюцинаций у мультимодальных моделей, лишь приоткрывает завесу над сложной динамикой взаимодействия текста и изображения. Устранение “проблемных” голов внимания, безусловно, является шагом вперед, однако не решает фундаментальный вопрос: почему модели столь склонны к предпочтению текстовой подсказки, даже когда она противоречит визуальной информации? Вместо простого подавления, возможно, необходимо разработать механизмы, способствующие более глубокому и критическому анализу входных данных.
Представляется важным исследовать, как архитектурные решения, такие как различные схемы внимания или интеграция дополнительных модальностей (например, звука или тактильных ощущений), могут повлиять на устойчивость моделей к галлюцинациям. Особый интерес представляет изучение возможности “обучения сомнению” — развития способности модели к самопроверке и оценке достоверности информации, поступающей из разных источников.
В конечном счете, задача состоит не в том, чтобы создать модели, безупречно “считывающие” изображения, а в том, чтобы построить системы, способные к осмысленному взаимодействию с миром, признающие границы своего понимания и не боящиеся задавать вопросы. Иллюзия “понимания” — опасный путь, а истинное знание начинается с осознания собственного незнания.
Оригинал статьи: https://arxiv.org/pdf/2601.05201.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Новые смартфоны. Что купить в январе 2026.
- Realme P4x ОБЗОР: замедленная съёмка видео, объёмный накопитель, большой аккумулятор
- СПБ Биржа растет, ФРС накачивает рынок: что ждет инвесторов в России и США? (11.01.2026 12:32)
- Лента акции прогноз. Цена LENT
- Российский рынок акций: Ралли продолжается? Анализ драйверов роста и рисков на 2026 год (26.12.2025 21:32)
- Лучшие смартфоны. Что купить в январе 2026.
- Samsung Galaxy Z TriFold ОБЗОР: сгибаемый экран, замедленная съёмка видео, портретная/зум камера
- HP Dragonfly Pro 2023 ОБЗОР
- Неважно, на что вы фотографируете!
- Motorola Edge 70 Ultra ОБЗОР: скоростная зарядка, замедленная съёмка видео, портретная/зум камера
2026-01-11 18:47