Взлом Мультимодальных ИИ: Как обойти защиту при генерации изображений

Автор: Денис Аветисян


Новое исследование демонстрирует, как можно заставить современные мультимодальные модели искусственного интеллекта создавать опасные изображения, несмотря на встроенные механизмы безопасности.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Многомодальные языковые модели способны генерировать изображения, содержащие насилие, незаконную деятельность, дискриминацию и оскорбительные жесты, непосредственно по текстовым запросам, без необходимости использования каких-либо обходных путей, что указывает на наличие этих элементов в обучающих данных и потенциальную опасность неконтролируемого синтеза контента.
Многомодальные языковые модели способны генерировать изображения, содержащие насилие, незаконную деятельность, дискриминацию и оскорбительные жесты, непосредственно по текстовым запросам, без необходимости использования каких-либо обходных путей, что указывает на наличие этих элементов в обучающих данных и потенциальную опасность неконтролируемого синтеза контента.

Исследователи разработали метод обхода защиты, основанный на семантическом разрыве и перекомпоновке инструкций, позволяющий генерировать вредоносный контент.

Несмотря на стремительное развитие многомодальных больших языковых моделей (MLLM), их устойчивость к злонамеренным воздействиям остается недостаточной. В работе ‘Beyond Visual Safety: Jailbreaking Multimodal Large Language Models for Harmful Image Generation via Semantic-Agnostic Inputs’ предложен новый метод атаки — BVS, позволяющий обходить механизмы безопасности MLLM и провоцировать генерацию вредоносных изображений за счет семантического разрыва между текстовым запросом и визуальным контентом. Эксперименты показали, что BVS достигает впечатляющей эффективности в 98.21% против GPT-5, демонстрируя критические уязвимости в существующих системах выравнивания безопасности. Какие дополнительные стратегии потребуются для создания действительно надежных и безопасных многомодальных моделей будущего?


Шёпот Хаоса: Уязвимости Мультимодальных Моделей

Мультимодальные большие языковые модели (MLLM) демонстрируют впечатляющий прогресс в обработке информации, объединяя текст и изображения для выполнения сложных задач. Однако, по мере увеличения их возможностей, растет и уязвимость к скрытым атакам, известным как «jailbreak». Эти атаки позволяют злоумышленникам обходить встроенные механизмы безопасности и заставлять модель генерировать нежелательный или даже опасный контент. В отличие от текстовых атак, визуальные «jailbreak» используют особенности обработки изображений, что делает их особенно коварными и трудными для обнаружения. Уязвимость MLLM представляет серьезную проблему, поскольку эти модели все шире применяются в критически важных областях, таких как автономное вождение и системы видеонаблюдения, где безопасность является первостепенной.

Существующие системы защиты от вредоносных воздействий на мультимодальные большие языковые модели (MLLM) оказываются недостаточно эффективными перед лицом сложных атак, использующих возможности визуальной обработки данных. Исследования показывают, что даже незначительные изменения в изображениях, незаметные для человеческого глаза, способны обмануть алгоритмы безопасности и спровоцировать нежелательное поведение модели. Это связано с тем, что MLLM, обучаясь на огромных объемах визуальной информации, становятся уязвимыми к манипуляциям, использующим специфические паттерны или “шумы” в изображениях. В отличие от текстовых атак, где можно применять фильтры и анализ семантики, визуальные данные гораздо сложнее интерпретировать и верифицировать на предмет вредоносного содержания, что делает разработку надежных защитных механизмов особенно сложной задачей.

Сложность визуальных данных представляет собой значительную проблему для обеспечения безопасности систем искусственного интеллекта. В отличие от текста, где можно напрямую анализировать последовательность символов, изображения содержат огромное количество информации, представленной в виде пикселей и сложных паттернов. Эта избыточность позволяет злоумышленникам маскировать вредоносный контент, внедряя его в безобидные визуальные сцены или используя едва заметные изменения, которые трудно обнаружить даже для человека. Более того, интерпретация изображений требует учета контекста, перспективы и различных культурных особенностей, что делает автоматическое обнаружение вредоносного контента чрезвычайно сложной задачей. Неспособность надежно анализировать визуальную информацию создает уязвимость в системах искусственного интеллекта, позволяя злоумышленникам обходить существующие механизмы защиты и внедрять вредоносный контент.

Уязвимость мультимодальных больших языковых моделей (MLLM) значительно возрастает при использовании так называемых «фрагментированных семантических атак». Суть данной техники заключается в намеренном раздроблении вредоносного контента на отдельные, казалось бы, безобидные фрагменты, которые затем собираются воедино непосредственно перед обработкой моделью. Этот подход позволяет обойти существующие системы защиты, ориентированные на обнаружение цельных изображений или текстовых запросов, поскольку отдельные фрагменты не вызывают подозрений. В результате модель, воспринимая разрозненные части как невинные, собирает их в полноценное вредоносное сообщение или изображение, приводя к нежелательным последствиям. Эффективность таких атак подчеркивает сложность обеспечения безопасности систем искусственного интеллекта, способных обрабатывать визуальную информацию, и необходимость разработки новых методов защиты, учитывающих контекст и семантическую целостность контента.

Модель GPT-5 способна генерировать разнообразные визуально различные вредоносные изображения <span class="katex-eq" data-katex-display="false">ISI_S</span> при сохранении единой злонамеренной семантики, как показано на пяти примерах, полученных в ходе отдельных экспериментов.
Модель GPT-5 способна генерировать разнообразные визуально различные вредоносные изображения ISI_S при сохранении единой злонамеренной семантики, как показано на пяти примерах, полученных в ходе отдельных экспериментов.

Преодолевая Границы: BVS — Рамки Визуальной Безопасности

Предлагаемый фреймворк Beyond Visual Safety (BVS) предназначен для проактивной идентификации уязвимостей в мультимодальных больших языковых моделях (MLLM) посредством атак, основанных на взломе пар «изображение-текст». В основе подхода лежит проверка способности MLLM корректно обрабатывать запросы, содержащие визуальные данные, и выявление случаев, когда манипуляции с изображением позволяют обойти встроенные механизмы безопасности и получить нежелательный результат. Фреймворк BVS нацелен на систематическое исследование границ безопасности MLLM, что позволяет выявить слабые места и разработать более надежные и устойчивые модели.

В основе BVS Framework лежит метод нейтрализованной визуальной склейки (Neutralized Visual Splicing), предназначенный для создания изображений с тонкими манипуляциями, способными обходить стандартные фильтры безопасности. Этот метод заключается в объединении семантически незначимых, безобидных изображений таким образом, чтобы полученное изображение, будучи визуально правдоподобным, могло спровоцировать нежелательное поведение мультимодальных больших языковых моделей (MLLM). В отличие от явных, грубых изменений, нейтрализованная склейка стремится к незаметности манипуляций, используя незначительные изменения пикселей и семантическую размытость, что делает обнаружение подобных атак значительно сложнее для существующих систем безопасности.

Алгоритм MIDOS является ключевым компонентом фреймворка BVS и предназначен для стратегического отбора доброкачественных изображений, используемых для семантической дилюции. Процесс отбора основан на анализе семантического содержания изображений с целью минимизации визуальных артефактов при последующем склеивании (splicing) и максимизации вероятности обхода существующих фильтров безопасности. Алгоритм определяет изображения, которые, будучи незначительно изменены и объединены с вредоносным контентом, способны эффективно маскировать атаку, сохраняя при этом визуальную правдоподобность и избегая детектирования. Эффективность MIDOS заключается в оптимизации выбора исходных изображений для достижения максимального эффекта “размытия” атаки и снижения ее заметности для систем безопасности.

Систематическое исследование границ безопасности многомодальных больших языковых моделей (MLLM) посредством преднамеренного использования слабозаметных атак, таких как нейтрализованное визуальное объединение, направлено на выявление уязвимостей до их эксплуатации злоумышленниками. Цель состоит в том, чтобы не просто обнаружить недостатки в фильтрах безопасности, но и использовать полученные данные для улучшения архитектуры и механизмов защиты MLLM, делая их более устойчивыми к различным типам атак и повышая общую надежность и безопасность функционирования. Данный подход позволяет перейти от реактивного исправления уязвимостей к проактивному укреплению системы безопасности MLLM.

Архитектура BVS-фреймворка включает в себя модули для обработки видеопотока, визуального отслеживания и управления роботом.
Архитектура BVS-фреймворка включает в себя модули для обработки видеопотока, визуального отслеживания и управления роботом.

BVS в Действии: Оценка Против Современных Атак

В ходе оценки, проведенной на целевой модели GPT-5, фреймворк BVS продемонстрировал успешное выявление уязвимостей, эксплуатируемых базовыми схемами взлома, включая Chain-of-Jailbreak и Perception-Guided атаки. Данные схемы, основанные на последовательном формировании запросов и манипулировании восприятием модели, были эффективно обнаружены BVS благодаря его способности анализировать сложные входные данные и выявлять отклонения от ожидаемого поведения. Успешная идентификация уязвимостей, используемых этими схемами, подтверждает эффективность BVS в качестве инструмента для оценки безопасности больших языковых моделей.

В ходе тестирования, BVS Framework выявил уязвимости, эксплуатируемые схемами, основанными на введении в заблуждение (confusion-based attacks), такими как AJF (Adversarial Jailbreak Fusion), FlipAttack и CodeChameleon. Данные схемы используют методы маскировки вредоносных запросов путем добавления незначительных изменений или кодирования информации в мультимодальных данных, что позволяет обходить стандартные механизмы защиты. BVS Framework успешно обнаруживает эти манипуляции, реконструируя скрытые инструкции и выявляя потенциальные векторы атак, что свидетельствует о недостаточной устойчивости современных мультимодальных моделей к подобным техникам обмана.

В ходе оценки, проведенной с использованием модели GPT-5, фреймворк BVS продемонстрировал 98.21% успешности в обходе механизмов защиты от несанкционированного доступа (jailbreak). Данный показатель указывает на существенные уязвимости в современных мультимодальных системах выравнивания безопасности. Высокий процент успешных атак свидетельствует о недостаточной эффективности существующих мер по предотвращению манипулирования моделью посредством вредоносных входных данных и необходимости разработки более надежных систем защиты.

Оценка эффективности BVS Framework показала его превосходство над существующими методами оценки безопасности, демонстрируя более высокую успешность обхода защитных механизмов (jailbreak success rate) как в отношении модели GPT-5, так и Gemini 1.5 Flash. Данный результат указывает на потенциал BVS как комплексного инструмента для выявления уязвимостей в современных больших языковых моделях и мультимодальных системах, позволяя проводить более глубокий анализ и оценку их устойчивости к различным атакам, чем доступные аналоги.

В основе функционирования BVS лежит метод Индуктивной Рекомпозиции, позволяющий восстанавливать исходные вредоносные изображения из фрагментированных входных данных. Этот подход значительно расширяет область исследования уязвимостей, поскольку позволяет обойти стандартные механизмы защиты, основанные на обнаружении явных признаков вредоносного контента. Восстанавливая полные изображения из фрагментов, BVS способен выявлять скрытые уязвимости в многомодальных системах безопасности, которые остаются незамеченными при анализе только целостных входных данных. Использование Индуктивной Рекомпозиции позволяет BVS эффективно исследовать более широкий спектр возможных атак и повышает надежность оценки безопасности.

В рамках BVS-фреймворка китайский индуктивный промпт используется для направления MLLM в задачах ролевой игры и пространственной пересборки.
В рамках BVS-фреймворка китайский индуктивный промпт используется для направления MLLM в задачах ролевой игры и пространственной пересборки.

К Более Устойчивому Мультимодальному Искусственному Интеллекту

Предложенный BVS (Boundary Visual Safety) фреймворк представляет собой действенный подход к заблаговременному выявлению и нейтрализации уязвимостей в мультимодальных больших языковых моделях (MLLM). В отличие от реактивных мер безопасности, применяемых после обнаружения проблем, BVS позволяет систематически исследовать границы визуальной безопасности, определяя потенциальные сценарии, в которых модель может генерировать вредоносный или нежелательный контент. Такой проактивный подход значительно повышает общую устойчивость MLLM к различным атакам и манипуляциям, обеспечивая более надежную и безопасную работу в широком спектре приложений — от автоматизированной модерации контента до помощи в принятии решений. Фреймворк позволяет разработчикам не просто устранять симптомы, но и понимать фундаментальные причины уязвимостей, что способствует созданию более совершенных и защищенных систем искусственного интеллекта.

Систематическое исследование границ визуальной безопасности мультимодальных больших языковых моделей (MLLM) позволяет выявлять уязвимости, связанные с обработкой изображений, и, как следствие, разрабатывать более эффективные механизмы защиты. Этот подход предполагает целенаправленное тестирование моделей с использованием разнообразных визуальных стимулов, включая изображения, потенциально способные спровоцировать генерацию вредоносного или нежелательного контента. Идентифицируя пределы, за которыми модель начинает давать непредсказуемые или опасные результаты, исследователи могут создавать алгоритмы, которые активно предотвращают выход за эти границы, обеспечивая тем самым более надежную и безопасную работу MLLM в различных областях применения. Такой проактивный подход к обеспечению безопасности позволяет не только блокировать известные типы вредоносного контента, но и предвидеть и нейтрализовать новые, ранее неизвестные угрозы.

Принципы, лежащие в основе разработанной методики анализа границ визуальной безопасности (BVS), обладают значительным потенциалом для адаптации к другим модальностям искусственного интеллекта. Исследователи полагают, что систематическое изучение границ безопасности, применяемое изначально к визуальным данным, может быть успешно расширено на обработку текста, аудио и других типов информации. Такой подход позволяет выявлять уязвимости и разрабатывать защитные механизмы, направленные на предотвращение генерации вредоносного или нежелательного контента, независимо от формата входных данных. В результате, применение принципов BVS способствует созданию более надежных и заслуживающих доверия систем искусственного интеллекта, способных безопасно функционировать в различных областях применения, от обработки естественного языка до анализа мультимедийных данных.

Дальнейшие исследования и разработки в области безопасности многомодальных больших языковых моделей (MLLM) представляются жизненно необходимыми для их ответственного внедрения в разнообразные сферы применения. Непрерывное совершенствование методов выявления и смягчения уязвимостей, а также углубленное понимание границ визуальной безопасности, позволит создавать более надежные и предсказуемые системы искусственного интеллекта. Учитывая потенциальное влияние MLLM на общество, от здравоохранения и образования до автоматизированного транспорта и творческих индустрий, инвестиции в исследования, направленные на обеспечение их безопасности и этичности, являются не просто желательными, но и необходимыми для предотвращения непредвиденных последствий и максимизации пользы от этих мощных технологий. Только благодаря постоянному развитию и всесторонней оценке рисков можно гарантировать, что MLLM будут использоваться во благо человечества, соблюдая принципы справедливости, прозрачности и подотчетности.

Исследование демонстрирует, что даже самые сложные многомодальные модели, казалось бы, надежно защищенные от генерации вредоносного контента, уязвимы перед атаками, эксплуатирующими разрыв между семантическим значением и фактическим представлением данных. Данная работа показывает, что достаточно незначительных изменений во входных данных, не несущих видимой смысловой нагрузки, чтобы обойти встроенные механизмы безопасности. В подтверждение этой идеи, как-то заметила Фэй-Фэй Ли: «Данные — это не цифры, а шёпот хаоса. Их нельзя понять, только уговорить». Ведь любая модель, стремящаяся упорядочить этот хаос, рано или поздно столкнется с необходимостью компромисса, и, как показывает эта работа, именно этот компромисс становится точкой входа для атак, основанных на семантическом размытии и рекомпозиции инструкций.

Что дальше?

Представленная работа, демонстрируя обход механизмов безопасности в мультимодальных больших языковых моделях посредством семантического размытия, лишь подтверждает старую истину: любая модель — это, в лучшем случае, временное соглашение с хаосом. Предсказательная сила — это иллюзия, а безопасность — хрупкий замок, построенный на песке. Успех атаки BVS не столько в её технической реализации, сколько в обнажении принципиальной слабости: модели, оторванные от реального смысла, становятся уязвимыми к манипуляциям, даже когда отдельные компоненты выглядят невинно.

Будущие исследования, вероятно, сосредоточатся на укреплении этих самых «замков», но стоит помнить: усиление защиты — это гонка вооружений, в которой на каждый новый щит найдётся более изощрённый клинок. Более перспективным представляется поиск способов примирить модель с реальностью, научить её не просто оперировать символами, а понимать смысл, контекст, последствия. Однако, и здесь кроется парадокс: понимание — это всегда субъективность, а значит, и безопасность станет вопросом интерпретации.

Данные не врут, они просто помнят избирательно. И пока обучение остаётся актом веры, а метрики — формой самоуспокоения, настоящая безопасность больших языковых моделей останется недостижимым миражом. Вместо того, чтобы пытаться полностью исключить риски, возможно, стоит научиться жить с ними, признав, что хаос — это не враг, а неотъемлемая часть любой сложной системы.


Оригинал статьи: https://arxiv.org/pdf/2601.15698.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-24 23:11