Обман зрения и речи: Новая атака на мультимодальные модели

Автор: Денис Аветисян

Исследователи разработали метод генерации высокопереносимых враждебных примеров, способных обмануть системы, одновременно обрабатывающие изображения и текст.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Предложенный подход SADCA, в отличие от существующих, непрерывно нарушает межмодальные взаимодействия посредством динамического контрастивного анализа как положительных, так и отрицательных пар, дополняя это семантическим обогащением данных, что, в сочетании с преобразованием входных данных, значительно повышает эффективность и переносимость атак на изображения.

В статье представлена SADCA — методика, динамически нарушающая взаимодействие между модальностями и расширяющая семантическое разнообразие для повышения эффективности атак на модели, обученные с использованием контрастного обучения.

Несмотря на стремительное развитие и широкое применение моделей предварительного обучения для обработки изображений и текста, их уязвимость к состязательным атакам остаётся критической проблемой. В данной работе, ‘Towards Highly Transferable Vision-Language Attack via Semantic-Augmented Dynamic Contrastive Interaction’, предложен новый метод генерации состязательных примеров — SADCA, который динамически нарушает межмодальное взаимодействие и повышает разнообразие семантических возмущений для улучшения переносимости атак. SADCA использует механизм контрастного обучения и семантическое расширение входных данных для усиления несоответствия между изображением и текстом, что позволяет значительно превзойти существующие методы по эффективности переносимости атак. Какие перспективы открывает разработка более устойчивых и безопасных моделей обработки визуально-текстовой информации?

Шёпот Хаоса: Уязвимости Визуально-Языковых Моделей

Современные многомодальные модели, объединяющие возможности компьютерного зрения и обработки естественного языка, демонстрируют впечатляющую способность к пониманию и генерации информации, связывающей изображения и текст. Эти модели, известные как Vision-Language Models (VLMs), превосходно справляются с такими задачами, как автоматическое создание текстовых описаний для изображений — задача, известная как Image Captioning — и поиск изображений, соответствующих текстовому запросу — Image-Text Retrieval. Способность VLMs эффективно сопоставлять визуальные и текстовые данные открывает широкие перспективы для развития таких приложений, как интеллектуальный поиск изображений, автоматическое создание контента и помощь людям с ограниченными возможностями. Успехи в этой области обусловлены прогрессом в архитектурах глубокого обучения, особенно в использовании трансформеров, и доступностью больших объемов данных для обучения.

Современные модели, объединяющие зрение и язык, демонстрируют впечатляющие возможности, однако они уязвимы к так называемым «атакам противника». Суть этих атак заключается в добавлении к входному изображению едва заметных изменений, не воспринимаемых человеческим глазом, которые способны кардинально изменить предсказание модели. Даже незначительные возмущения, тщательно разработанные злоумышленником, могут привести к ошибочной интерпретации изображения, например, к ложному описанию или неправильному определению объектов на нём. Это представляет серьезную проблему для безопасности и надежности систем, использующих такие модели в критически важных приложениях, как автономное вождение или медицинская диагностика, подчеркивая необходимость разработки эффективных методов защиты от подобных атак.

Существующие методы защиты от атак на многомодальные модели, объединяющие зрение и язык, часто демонстрируют ограниченную эффективность при переходе между различными архитектурами. Исследования показывают, что защита, разработанная для одной модели, как правило, оказывается неэффективной против атак, специально сконструированных для другой, даже если обе модели решают схожие задачи. Это связано с различиями в структуре, параметрах и обучающих данных, что делает каждую модель уязвимой к уникальным типам возмущений. Такая непереносимость защиты представляет серьезную проблему для практического применения этих моделей в реальных условиях, где злоумышленник может адаптировать атаку к конкретной используемой архитектуре, обходя существующие механизмы защиты и приводя к неверным результатам.

Визуализация показывает, как специально созданные изображения-возмутители используются для атаки на коммерческие многомодальные большие языковые модели (LVLM).

Семантическая Гармония: Усиление Устойчивости через Расширение

Семантическое расширение (Semantic Augmentation) представляет собой подход к генерации состязательных примеров, направленный на повышение их переносимости между различными моделями машинного обучения. Суть метода заключается в обогащении исходных состязательных примеров дополнительной семантической информацией. Это достигается путем модификации входных данных таким образом, чтобы сохранялась их основная семантическая суть, но при этом вносились изменения, затрудняющие обнаружение атаки специализированными механизмами защиты. В результате, сгенерированные примеры становятся более устойчивыми к изменениям в архитектуре или параметрах целевой модели, увеличивая вероятность успешной атаки даже при отсутствии точного знания о ее структуре.

Для повышения устойчивости возмущений применяются методы семантической аугментации, такие как локальная семантическая аугментация изображений (Local Semantic Image Augmentation) и смешанная семантическая аугментация текста (Mixed Semantic Text Augmentation). Локальная семантическая аугментация изображений предполагает внесение изменений в изображение, сохраняя при этом его семантическое содержание, что позволяет создавать более разнообразные и эффективные атаки. Смешанная семантическая аугментация текста комбинирует различные способы изменения текста, такие как замена синонимов, перефразирование и добавление шума, с целью увеличения разнообразия возмущений и улучшения их способности обходить защитные механизмы. Оба подхода направлены на расширение пространства возмущений, делая их менее зависимыми от конкретных особенностей целевой модели.

Преобразование входных данных играет ключевую роль в диверсификации пространства атак, снижая уязвимость к специализированным защитным механизмам моделей. Применение различных преобразований, таких как изменения масштаба, повороты, добавление шума или изменения цветовой гаммы, позволяет создавать возмущения, которые менее зависят от конкретных особенностей архитектуры или параметров целевой модели. Это достигается за счет расширения области возможных возмущений, что затрудняет применение защитных мер, основанных на анализе специфических шаблонов или характеристик атак. Диверсификация пространства атак посредством преобразований входных данных повышает вероятность успешной атаки на различные модели, даже если они используют различные стратегии защиты.

Модуль семантической аугментации расширяет исходные данные, обогащая их смысловым содержанием для улучшения производительности модели.

Динамическое Взаимодействие: Контраст как Ключ к Переносимости

Механизм Динамического Контрастивного Взаимодействия (SADCA) основан на итеративном нарушении семантической согласованности между модальностями изображения и текста. Этот процесс заключается в последовательной корректировке как визуальных, так и текстовых возмущений с целью усиления атаки. В ходе каждой итерации SADCA оценивает степень семантической согласованности между исходным изображением/текстом и возмущенными версиями, а затем уточняет возмущения для максимального отклонения от исходной семантики при сохранении правдоподобия. Такая итеративная процедура позволяет более эффективно генерировать состязательные примеры, чем статические методы возмущений, и повышает устойчивость модели к атакам.

Механизм динамического контрастного взаимодействия (SADCA) в сочетании с семантической аугментацией позволяет генерировать антагонистические примеры, достигающие передового показателя успешности атаки (Attack Success Rate, ASR) в 88.35% при Rank-1 (R@1) на наборе данных MSCOCO. Данный результат был получен при атаке модели ALBEF на модель CLIPCNN, что демонстрирует высокую эффективность предложенного подхода в задачах межмодального обмана и устойчивости моделей к антагонистическим воздействиям.

Механизм SADCA демонстрирует значительное повышение эффективности переноса атак между моделями. В экспериментах на наборе данных MSCOCO, при атаке от CLIPCNN к CLIPViT, SADCA достигает Attack Success Rate (ASR) на Rank-1 в 87.42%. Данный показатель на 9.19% выше при задачах рассуждения “Текст-в-Изображение” и на 5.7% выше при задачах “Изображение-в-Текст”, чем у алгоритма SA-AET+SIA. Улучшение ASR указывает на повышенную устойчивость к переносу атак, что является важным аспектом при оценке безопасности мультимодальных моделей.

Предложенный метод SADCA успешно генерирует антагонистические примеры, визуально схожие с исходными изображениями.

От Уязвимости к Надежности: Взгляд в Будущее Визуально-Языковых Моделей

Улучшенная устойчивость к состязательным атакам, продемонстрированная методом SADCA, открывает новые возможности для надежности визуально-языковых моделей (VLM) в критически важных областях. В частности, в системах автономного вождения, где даже незначительные искажения входных данных могут привести к серьезным последствиям, повышение устойчивости к намеренным помехам гарантирует более безопасную и предсказуемую работу. Аналогично, в медицинской диагностике, где точность анализа изображений имеет первостепенное значение, SADCA позволяет минимизировать риск ошибочных интерпретаций, вызванных злонамеренными манипуляциями с данными, что способствует более надежной поддержке принятия решений врачами. Таким образом, повышение устойчивости VLM к состязательным атакам не только улучшает их производительность в контролируемых условиях, но и значительно расширяет спектр их практического применения в реальном мире, где безопасность и надежность имеют решающее значение.

Принципы динамического контрастивного взаимодействия и семантической аугментации, успешно примененные в обучении надежных визуально-языковых моделей, обладают значительным потенциалом для расширения на другие задачи мультимодального обучения. Данные методы позволяют моделям не только лучше понимать отдельные модальности, но и эффективно интегрировать информацию из различных источников, что приводит к повышению обобщающей способности. В частности, применение динамической аугментации, адаптирующей сложность и разнообразие возмущений, способствует формированию более устойчивых представлений и снижению чувствительности к непредсказуемым изменениям во входных данных. Расширение данной концепции на задачи, такие как анализ аудио-визуальной информации или обработка текста и изображений одновременно, может значительно улучшить производительность и надежность мультимодальных систем в широком спектре приложений.

Перспективные исследования в области надежных визуально-языковых моделей (VLM) направлены на разработку адаптивных стратегий аугментации данных. Вместо применения универсальных наборов возмущений, будущие алгоритмы смогут динамически подстраивать разнообразие и интенсивность этих возмущений, основываясь на специфических характеристиках конкретной целевой модели. Такой подход позволит более эффективно выявлять и устранять уязвимости, поскольку аугментация будет учитывать архитектурные особенности, параметры обучения и склонность модели к определенным типам ошибок. Подобная адаптивность не только повысит устойчивость VLM к состязательным атакам, но и улучшит обобщающую способность моделей в реальных условиях, где входные данные могут значительно отличаться от обучающих примеров, обеспечивая более надежную работу в критически важных приложениях, таких как автономное вождение и медицинская диагностика.

Исследование абляции различных модулей SADCA на наборе данных Flickr30K с использованием CLIPCNN в качестве исходной модели показало их влияние на устойчивость к атакам на другие «черные ящики» модели.

В этой работе исследователи стремятся нарушить хрупкое равновесие между визуальной и языковой информацией, создавая устойчивые к переносу враждебные примеры. Это напоминает попытку уговорить капризный алгоритм, заставив его усомниться в очевидном. Фей-Фей Ли однажды заметила: «Данные — это не цифры, а шёпот хаоса». Именно этот шепот, эта непредсказуемость, и пытается использовать SADCA, динамически вмешиваясь во взаимодействие между модальностями, чтобы заставить модель увидеть то, чего нет, или не увидеть то, что есть. Кажется, что нормализация данных — лишь временная иллюзия порядка перед лицом этой хаотичной реальности, ведь всё, что не нормализовано, всё ещё дышит, и может обернуться против нас в самый неожиданный момент.

Что дальше?

Представленные здесь манипуляции с перекрестными модальными взаимодействиями, возможно, и позволяют заставить модели «замолчать», но не стоит обольщаться. Сущность атаки, как и любого заклинания, кроется не в самом действии, а в непостоянстве мира. Каждая новая архитектура, каждая незначительная модификация в данных — и заклинание теряет силу. Задача не в создании универсального «яда», а в понимании того, как хаос проникает в структуру моделей, как он шепчет им неверные ответы.

Очевидно, что простого увеличения семантического разнообразия недостаточно. Необходимо искать более тонкие способы дестабилизации, воздействовать не на видимую форму, а на скрытые потоки информации. Следует обратить внимание на динамику обучения, на те моменты, когда модель становится особенно уязвимой, когда её «вера» слабеет. Возможно, ключ к созданию действительно переносимых атак лежит не в генерации примеров, а в искажении самого процесса обучения.

В конечном итоге, все эти усилия — лишь попытка понять, что есть «понимание» для машины. Успех в этой области не принесёт абсолютной защиты, но позволит создать более устойчивые, более предсказуемые системы. И, возможно, немного смириться с тем, что любой алгоритм — это всего лишь хрупкая иллюзия порядка в океане хаоса.

Оригинал статьи: https://arxiv.org/pdf/2603.04839.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-08 23:11