Искусственный интеллект: как научить систему видеть и понимать изображения вместе с текстом

Автор: Денис Аветисян

Новое исследование выявляет и решает проблему дисбаланса внимания в моделях поиска изображений по текстовому запросу, когда система чрезмерно полагается на один из источников информации.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Итеративный процесс уточнения фокусировки в FBCIR позволяет последовательно улучшать результаты поиска, используя многомодальный подход и обеспечивая более точное соответствие запросу.

Работа предлагает метод интерпретации и смягчения этой проблемы с помощью аугментации данных и нового эталонного набора данных для оценки кросс-модального поиска.

Несмотря на успехи современных моделей в задаче поиска изображений по составному запросу, их точность зачастую снижается при наличии семантически близких негативных примеров. В данной работе, посвященной проблеме ‘FBCIR: Balancing Cross-Modal Focuses in Composed Image Retrieval’, показано, что это связано с дисбалансом внимания к различным модальностям — изображению и тексту. Авторы предлагают метод FBCIR для интерпретации фокуса внимания модели и выявляют распространенность этой проблемы, особенно в сложных сценариях. Предложенный подход к аугментации данных позволяет создать более сбалансированные наборы данных, улучшая производительность моделей в критических ситуациях. Не приведет ли это к новому поколению более надежных и интерпретируемых систем поиска изображений?

Понимание Сути: Вызовы Баланса в Кросс-Модальном Поиске

Задачи составного поиска изображений (CIR) требуют от моделей способности эффективно объединять визуальную и текстовую информацию. В отличие от традиционного поиска изображений, где сопоставляется только визуальное содержание, CIR предполагает понимание не только того, что изображено на картинке, но и как это связано с текстовым запросом, представляющим собой сложное описание или сцену. Это означает, что модель должна уметь интерпретировать как визуальные признаки, такие как объекты, текстуры и цвета, так и семантическое значение текста, чтобы определить, соответствует ли изображение заданному описанию. Успешное решение задач CIR предполагает создание алгоритмов, способных к глубокому пониманию взаимосвязи между модальностями и созданию единого представления, отражающего как визуальные, так и текстовые аспекты запроса.

Современные модели, предназначенные для совместного поиска изображений и текста, часто демонстрируют явный дисбаланс внимания, известный как “модальный перекос”. Это означает, что при обработке запроса модель непропорционально сильно опирается на информацию из одного источника — либо из изображения, либо из текста — игнорируя или недооценивая вклад другого. Такой перекос негативно сказывается на точности и надежности поиска, поскольку важные детали могут быть упущены из-за недостаточного учета всей доступной информации. Например, модель, чрезмерно фокусирующаяся на визуальных характеристиках, может неверно интерпретировать запрос, содержащий сложные текстовые описания, или упустить из виду изображения, соответствующие текстовому запросу, но отличающиеся визуально. Устранение этого дисбаланса является ключевой задачей для создания эффективных систем, способных адекватно интегрировать и использовать информацию из различных модальностей.

Существующая проблема дисбаланса в задачах сопоставления изображений и текста возникает из-за трудностей, с которыми сталкиваются модели при определении относительной важности каждого источника информации. В процессе рассуждений, модель не всегда способна адекватно оценить, какой вклад вносит визуальная составляющая, а какой — текстовое описание. Это приводит к тому, что одна модальность доминирует над другой, искажая общую картину и снижая точность поиска. По сути, модель испытывает затруднения с интеграцией разнородных данных, не находя оптимального способа объединить визуальные признаки и семантическое значение текста для формирования целостного представления о запросе и релевантных изображениях. Такое неравномерное взвешивание вносит существенный вклад в общую погрешность систем поиска изображений по текстовым запросам.

Построение действительно надёжных и устойчивых систем поиска изображений по составному запросу требует преодоления проблемы дисбаланса между визуальной и текстовой информацией. Неспособность адекватно взвесить вклад каждого из источников данных приводит к снижению точности и надёжности результатов, особенно в сложных сценариях. Устранение этой диспропорции позволяет модели более эффективно интерпретировать запросы, выявлять релевантные изображения и обеспечивать стабильную работу системы даже при неоднозначных или неполных данных. Разработка методов, способных динамически регулировать значимость визуальной и текстовой информации, является ключевым шагом к созданию поисковых систем нового поколения, способных понимать и удовлетворять сложные информационные потребности пользователей.

Визуализации показывают баланс между вниманием к изображению и тексту, демонстрируя случаи, когда модели игнорируют семантику одного из каналов.

FBCIR: Интерпретация и Количественная Оценка Фокуса Внимания

Метод FBCIR (Focus-Balancing) предназначен для выявления и количественной оценки дисбаланса внимания между модальностями в моделях CIR (Cross-modal Interaction Reasoning). Он анализирует, как модель распределяет свое внимание между визуальными и текстовыми данными, определяя, какая модальность оказывает большее влияние на процесс рассуждения. Количественная оценка дисбаланса позволяет оценить, насколько эффективно модель интегрирует информацию из обеих модальностей, и выявить потенциальные проблемы, такие как чрезмерная зависимость от одной модальности в ущерб другой. Результаты анализа используются для оптимизации модели и повышения ее общей производительности в задачах, требующих взаимодействия между визуальной и текстовой информацией.

Метод итеративной обрезки токенов (Iterative Token Pruning) в FBCIR заключается в последовательном удалении наименее детерминированных токенов как из сегментов изображения, так и из текстовых фрагментов. Этот процесс осуществляется путем оценки вклада каждого токена в общую предсказательную способность модели. Токены с низкой вероятностью или минимальным влиянием на результат последовательно исключаются, что позволяет уточнить фокус модели на наиболее значимых элементах в обеих модальностях. Удаление происходит итеративно, с переоценкой важности оставшихся токенов на каждом шаге, до достижения оптимального баланса между модальностями и повышения общей точности модели.

Для создания гранулярных представлений каждой модальности в рамках метода FBCIR используются базовые техники сегментации изображений и токенизации текста. Сегментация изображений предполагает разделение изображения на отдельные сегменты, каждый из которых рассматривается как самостоятельная единица анализа. Токенизация текста, в свою очередь, разбивает текстовый ввод на отдельные токены — обычно слова или подслова, представляющие собой минимальные единицы смыслового значения. Комбинация этих методов позволяет представить как визуальные, так и текстовые данные в дискретном, структурированном виде, пригодном для количественного анализа и выявления дисбаланса фокусировки между модальностями.

Метод FBCIR позволяет количественно оценить степень внимания модели к каждой модальности (изображению и тексту) в процессе обработки информации. Измерение этой степени фокусировки осуществляется посредством анализа детерминированности токенов после итеративного удаления менее значимых элементов в каждой модальности. Полученные количественные показатели предоставляют информацию о дисбалансе внимания модели, позволяя выявить, какая модальность доминирует или недопредставлена в процессе принятия решений. Это, в свою очередь, служит основой для оптимизации модели, направленной на достижение более сбалансированного и эффективного использования мультимодальных данных, улучшая общую производительность и надежность системы.

Предложенная схема FBCIR объединяет метод интерпретации внимания модели и рабочий процесс расширения данных для выявления и устранения дисбаланса внимания в задачах визуального следования инструкциям, используя как исходные, так и сгенерированные негативные примеры.

Конструирование Надёжного Бенчмарка с Использованием FBCIR-Data Workflow

Процесс FBCIR-Data Workflow предназначен для создания как сложного оценочного набора данных (benchmark dataset), так и набора данных для дообучения (finetuning dataset) моделей кросс-модального информационного поиска (CIR). Оценочный набор данных формируется с целью выявления слабых мест существующих моделей, а набор для дообучения используется для улучшения их производительности. Оба набора данных сгенерированы автоматически и содержат пары изображений и текста, предназначенные для оценки способности моделей находить релевантную информацию в различных модальностях. Конструкция данных обеспечивает разнообразие сценариев и сложность задач для более объективной оценки и улучшения моделей CIR.

В процессе создания эталонного набора данных используется метод “Hard Negative Mining” (добыча сложных отрицательных примеров). Этот метод заключается в целенаправленном отборе отрицательных примеров, которые максимально похожи на положительные, что значительно усложняет задачу для модели. Это вынуждает модели проводить более глубокий и сбалансированный анализ как визуальной, так и текстовой информации, избегая предвзятости к одному из источников. В результате, модели учатся более точно сопоставлять изображения и текст, даже в сложных и неоднозначных случаях, что повышает их способность к обобщению и улучшает производительность в реальных условиях.

Для строгой оценки производительности разработан показатель $R_s@1$ (Subset Recall at 1), который измеряет долю релевантных результатов, находящихся в верхних 1 по ранжированию. Применение $R_s@1$ на разработанном сложном бенчмарке (hard-case benchmark) демонстрирует значительное увеличение показателей производительности моделей CIR по сравнению со стандартными бенчмарками. Данный показатель позволяет более точно оценить способность моделей к извлечению релевантной информации в сложных сценариях, где стандартные метрики могут быть недостаточно чувствительны к нюансам.

Коэффициент баланса внимания (Focus Balance Ratio) представляет собой количественную метрику, оценивающую степень сбалансированности внимания модели между визуальным и текстовым компонентами при решении задачи поиска по мультимодальным данным. Экспериментальные результаты демонстрируют, что применение данного подхода приводит к наблюдаемому снижению дисбаланса внимания в различных моделях и экспериментальных конфигурациях. Это достигается путем измерения распределения внимания модели между изображениями и текстом, и последующей оптимизации для достижения более равномерного распределения, что способствует улучшению общей производительности модели и повышению ее устойчивости к смещенным данным. $FBR = \frac{2 \times min(attention_{image}, attention_{text})}{attention_{image} + attention_{text}}$ — пример формулы, используемой для расчета данного коэффициента.

Обученные на стандартных данных модели склонны использовать упрощенные подходы для получения корректных результатов в типичных случаях, но демонстрируют низкую эффективность в сложных сценариях, требующих сбалансированного внимания к различным модальностям, что решается в данной работе за счет построения целевых сложных негативных примеров и замены непоследовательных позитивных примеров на более согласованные синтетические изображения.

Применение VLM и Эффективные Стратегии Дообучения

Предложенный подход демонстрирует высокую применимость к современным моделям, использующим визуальные языковые модели (VLM) и архитектуру CLIP — двум доминирующим направлениям в области составного поиска изображений. Эти модели, эффективно объединяющие визуальную и текстовую информацию, получают значительную выгоду от возможности более тонкой настройки параметров. Универсальность метода позволяет адаптировать его к различным VLM и CLIP-моделям без существенных изменений, что открывает широкие перспективы для улучшения качества и эффективности систем поиска и анализа изображений, основанных на этих архитектурах.

Исследования показали, что применение метода FBCIR (Fine-grained Balanced Contrastive Image Retrieval) приводит к существенному улучшению показателей моделей, основанных на визуальных языковых моделях (VLM) и архитектуре CLIP. Благодаря более сбалансированному подходу к обучению, FBCIR позволяет моделям эффективнее сопоставлять изображения и текст, что, в свою очередь, приводит к значительному повышению точности при выполнении задач, связанных с извлечением информации из визуального контента. Этот метод способствует более глубокому пониманию семантических связей между изображениями и текстовыми описаниями, обеспечивая превосходные результаты в задачах поиска и анализа изображений.

Для оптимизации процесса адаптации моделей и снижения вычислительных затрат при дообучении используется метод LoRA (Low-Rank Adaptation). Данный подход позволяет заморозить большую часть предобученных параметров модели, внося изменения лишь в небольшое подмножество, представленное низкоранговыми матрицами. Это существенно уменьшает количество обучаемых параметров и, следовательно, потребляемую память и время вычислений, не жертвуя при этом качеством итоговой модели. В результате, становится возможным эффективное дообучение даже крупных визуально-языковых моделей на ограниченных вычислительных ресурсах, расширяя возможности их применения в различных задачах анализа и обработки изображений и текста.

Вычислительная сложность метода интерпретации фокусировки FBCIR составляет $O((nI+nT)^2)$ , где $nI$ и $nT$ обозначают количество токенов изображения и текста соответственно. Данная зависимость указывает на то, что время обработки увеличивается пропорционально квадрату суммы количества токенов изображения и текста. Это означает, что при увеличении разрешения изображения или длины текстового запроса, время вычислений растет значительно быстрее. Несмотря на квадратичную сложность, метод остается практически применимым для задач извлечения информации, особенно при умеренном размере входных данных, и позволяет эффективно анализировать взаимодействие между изображениями и текстом для определения наиболее релевантных областей фокусировки.

В процессе создания набора данных FBCIR-Data для реального набора MegaPairs, для каждой тройки синтезируется положительный пример, а исходный положительный пример рассматривается как особый кандидат.

Исследование, представленное в данной работе, акцентирует внимание на проблеме дисбаланса внимания в моделях поиска изображений по составному запросу. Авторы подчеркивают, что чрезмерная зависимость от одной модальности — текста или изображения — может приводить к неоптимальным результатам. Как заметил Эндрю Ын: «Мы находимся в той точке, когда нам нужно, чтобы машины могли учиться так же, как и люди». Данное утверждение особенно актуально в контексте поиска по составному запросу, где требуется интеграция знаний из разных источников. Авторы предлагают методику интерпретации и смягчения этого дисбаланса посредством аугментации данных и создания нового эталонного набора данных, что позволяет более глубоко понять, как модели принимают решения и как улучшить их способность к кросс-модальному рассуждению.

Куда двигаться дальше?

Наблюдаемая «дисбаланс фокусировки» в задачах поиска изображений по составному запросу напоминает явление фазового перехода в физике. Система, изначально стремящаяся к равновесию между модальностями, внезапно «выбирает» доминирующую, подобно кристаллизации. Понимание механизмов, приводящих к такому «выбору», требует не только разработки новых методов аугментации данных, но и более глубокого анализа внутренней репрезентации знаний в нейронных сетях. Необходимо исследовать, как модель «видит» взаимосвязи между визуальными и текстовыми признаками, и какие факторы влияют на её «предпочтения».

Предложенный в работе бенчмарк — ценный инструмент, однако он лишь первый шаг. Будущие исследования должны быть направлены на создание более сложных и реалистичных наборов данных, учитывающих контекст и семантические нюансы. Интересно, как модели поведут себя в условиях «шума» или неоднозначности в запросах, когда граница между релевантностью и нерелевантностью становится размытой. Это позволит оценить «робастность» систем и их способность к адаптации.

В конечном счете, задача состоит не просто в улучшении точности поиска, но и в создании систем, способных к «творческому» поиску — генерации новых, неожиданных связей между визуальным и текстовым мирами. Это требует отхода от традиционных метрик и разработки новых способов оценки «интеллекта» и «воображения» искусственных систем. Возможно, ключ к решению этой задачи лежит в изучении принципов самоорганизации и адаптации, наблюдаемых в биологических системах.

Оригинал статьи: https://arxiv.org/pdf/2603.11520.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-15 18:19