Визуальный поиск нового поколения: открывая возможности мультимодальных моделей

Автор: Денис Аветисян


Исследователи представили O3-Bench — сложный тест для мультимодальных систем, и разработали InSight-o3 — платформу, расширяющую их возможности визуального поиска и логического мышления.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
На примере многоступенчатного визуального рассуждения, демонстрируемого InSight-o3 на O3-Bench, подтверждается возможность эффективного анализа сложных визуальных данных, при этом детали внутренних процессов намеренно опущены для большей наглядности, а дополнительные примеры представлены в Приложении D.2.
На примере многоступенчатного визуального рассуждения, демонстрируемого InSight-o3 на O3-Bench, подтверждается возможность эффективного анализа сложных визуальных данных, при этом детали внутренних процессов намеренно опущены для большей наглядности, а дополнительные примеры представлены в Приложении D.2.

Представлен бенчмарк O3-Bench и агентский фреймворк InSight-o3, использующие обучение с подкреплением для улучшения мультимодального рассуждения.

Несмотря на значительные успехи в области мультимодальных моделей, способность к сложному визуальному рассуждению, необходимому для анализа документов и навигации, остается проблематичной. В данной работе, ‘InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search’, авторы представляют O3-Bench — новый бенчмарк для оценки мультимодального рассуждения с акцентом на внимательное изучение визуальных деталей. Предлагаемый фреймворк InSight-o3, использующий обучение с подкреплением, значительно расширяет возможности визуального поиска, позволяя находить не только объекты, но и реляционные, нечеткие или концептуальные области на изображениях. Способны ли подобные системы приблизить нас к созданию действительно «думающих» и способных к анализу визуальной информации открытых AI-агентов?


Визуальное мышление: преодолевая сложность интерпретации

Современные мультимодальные модели испытывают значительные трудности при решении сложных задач визуального рассуждения, особенно когда требуется глубокий анализ графиков и карт. Эти модели часто демонстрируют ограниченные возможности в интерпретации визуальной информации, неспособность выявлять закономерности и делать логические выводы на основе представленных данных. Несмотря на успехи в распознавании объектов и сцен, сложность визуального рассуждения заключается в необходимости не просто идентифицировать элементы, но и понимать их взаимосвязи, экстраполировать информацию и применять знания из различных областей. Это особенно заметно при анализе графиков, где необходимо сопоставлять данные, оценивать тенденции и делать прогнозы, а также при работе с картами, требующими понимания пространственных отношений и географических особенностей. Таким образом, способность к комплексному визуальному рассуждению остается серьезным вызовом для современных систем искусственного интеллекта.

Существующие подходы к обработке визуальной информации зачастую объединяют этапы восприятия и рассуждения в единый, неразделимый процесс, что значительно ограничивает их эффективность и возможности масштабирования. Такое упрощение не позволяет модели последовательно анализировать визуальные данные, выделять релевантные признаки и применять логические правила для получения обоснованных выводов. Вместо этого, система пытается сразу же интерпретировать изображение целиком, что приводит к ошибкам при решении сложных задач, требующих детального анализа и многоступенчатого рассуждения. Разделение этих двух процессов — восприятия и логического вывода — представляется ключевым шагом к созданию более эффективных и гибких систем визуального мышления, способных обрабатывать сложные схемы, карты и графики с высокой точностью и масштабируемостью.

Модель, состоящая из <span class="katex-eq" data-katex-display="false">vReasoner</span> и <span class="katex-eq" data-katex-display="false">vSearcher</span>, итеративно использует описания областей на естественном языке для точного поиска соответствующих фрагментов изображения и, как следствие, для правильного определения целевой области.
Модель, состоящая из vReasoner и vSearcher, итеративно использует описания областей на естественном языке для точного поиска соответствующих фрагментов изображения и, как следствие, для правильного определения целевой области.

InSight-o3: Архитектура разделения для эффективного анализа

InSight-o3 представляет собой многоагентную структуру, в которой функции визуального поиска (осуществляемые агентом vSearcher) и логического вывода (агентом vReasoner) четко разделены. Такая архитектура позволяет независимо оптимизировать каждый из компонентов, что способствует повышению общей производительности и точности системы. Разделение ответственности между агентами vSearcher и vReasoner обеспечивает модульность и упрощает разработку, тестирование и масштабирование отдельных частей системы.

Модуль vSearcher использует два ключевых инструмента для определения релевантных областей на изображении. Во-первых, применяется анализ структуры изображения (Layout Analysis), который позволяет выделить визуальные элементы и их взаимосвязи. Во-вторых, используется инструмент масштабирования изображения (Image Zooming Tool) для детального изучения выделенных областей и точного определения интересующих регионов. Комбинация этих двух методов обеспечивает эффективное выделение релевантных частей изображения для последующего анализа.

Разделение функциональности визуального поиска и рассуждений в InSight-o3 позволяет проводить независимую оптимизацию каждого компонента. Оптимизация `vSearcher` направлена на повышение скорости и точности определения релевантных областей изображения, используя методы анализа макета и инструменты масштабирования. В свою очередь, оптимизация `vReasoner` сосредоточена на улучшении логических выводов и обработки информации, полученной от `vSearcher`. Такой подход позволяет добиться более высокой общей эффективности системы, поскольку каждый модуль может быть настроен и улучшен независимо от другого, что приводит к повышению скорости обработки и точности результатов.

Обучение InSight-o3 демонстрирует, что среднее количество обращений vReasoner к vSearcher на каждый вопрос остается стабильным, что позволяет справедливо сравнивать кривые вознаграждения, полученные без обратной связи.
Обучение InSight-o3 демонстрирует, что среднее количество обращений vReasoner к vSearcher на каждый вопрос остается стабильным, что позволяет справедливо сравнивать кривые вознаграждения, полученные без обратной связи.

Оптимизация взаимодействия с помощью обучения с подкреплением

Для оптимизации взаимодействия между компонентами `vSearcher` и `vReasoner` была применена технология обучения с подкреплением (Reinforcement Learning). Этот подход позволил уточнить стратегию работы `vSearcher` с целью максимизации объема релевантной информации, передаваемой `vReasoner`. Процесс обучения включал в себя определение оптимальных действий `vSearcher` на основе получаемого вознаграждения, которое отражало качество предоставляемой информации и ее вклад в успешное выполнение задачи `vReasoner`. В результате, система демонстрирует улучшенную способность к эффективному обмену информацией между компонентами, что положительно сказывается на общей производительности.

В рамках разработки системы использовались модели `Qwen2.5-VL` и `GPT-5-mini` в качестве как `vReasoner` (модуль рассуждений), так и `vSearcher` (модуль поиска). Это позволило продемонстрировать гибкость предложенной архитектуры, поскольку одна и та же модель может выполнять обе функции, адаптируясь к различным ролям в процессе взаимодействия. Использование нескольких моделей в обеих ролях также позволило оценить их производительность и эффективность в различных сценариях и оптимизировать общую систему.

Процесс обучения с подкреплением повышает способность модуля vSearcher предвидеть информационные потребности модуля vReasoner. Это достигается за счет оптимизации стратегии поиска vSearcher, направленной на предоставление наиболее релевантных данных, необходимых для последующего этапа рассуждений vReasoner. Улучшение предвидения позволяет сократить количество итераций поиска, снизить задержки и повысить общую эффективность процесса принятия решений, поскольку vReasoner получает необходимые данные своевременно и в оптимальном формате для проведения анализа.

Обучение vSearcher осуществляется с помощью гибридного алгоритма RL, сочетающего в себе онлайн-компонент, генерирующий визуальные поисковые задачи для улучшения ответов на запросы пользователя, и оффлайн-компонент, использующий предопределенные описания и ограничивающие рамки для эффективного обучения через IoU-контроль.
Обучение vSearcher осуществляется с помощью гибридного алгоритма RL, сочетающего в себе онлайн-компонент, генерирующий визуальные поисковые задачи для улучшения ответов на запросы пользователя, и оффлайн-компонент, использующий предопределенные описания и ограничивающие рамки для эффективного обучения через IoU-контроль.

Оценка на O3-Bench: демонстрация передовых возможностей

Для всесторонней оценки возможностей InSight-o3 в области мультимодального рассуждения, была проведена его оценка на бенчмарке O3-Bench. Этот сложный тест специально разработан для проверки способности моделей извлекать информацию и делать выводы на основе визуально сложных диаграмм и карт. O3-Bench представляет собой серьезное испытание, требующее от систем не просто распознавания элементов, но и понимания их взаимосвязей и контекста, что делает его идеальным инструментом для измерения продвинутых возможностей InSight-o3 в области анализа визуальных данных. Результаты, полученные на O3-Bench, демонстрируют способность системы эффективно решать задачи, требующие комплексного анализа и интерпретации визуальной информации.

В ходе оценки на бенчмарке O3-Bench, разработанном для проверки многомодального рассуждения на сложных графиках и картах, InSight-o3 продемонстрировал передовые результаты, достигнув точности в 61.5% при использовании GPT-5-mini. Этот показатель представляет собой значительный прогресс, обеспечивая относительное улучшение в 20.9% по сравнению с базовыми моделями. Достигнутая точность подтверждает эффективность предложенного подхода в извлечении сложных взаимосвязей и понимании визуальных данных, что делает InSight-o3 новым стандартом в области анализа визуальной информации.

Ключевым фактором успеха InSight-o3 является его способность к многоступенчатому логическому выводу — Multi-Hop Reasoning. Этот механизм позволяет системе не просто идентифицировать элементы на визуальных данных, таких как графики и карты, но и последовательно анализировать взаимосвязи между ними. Вместо прямого сопоставления вопроса и ответа, InSight-o3 выстраивает цепочку умозаключений, подобно тому, как это делает человек, рассматривая различные аспекты информации и комбинируя их для получения сложных выводов. Именно благодаря этому подходу фреймворк способен извлекать глубокие и неявные знания из визуальных данных, превосходя традиционные методы и демонстрируя значительное улучшение точности в задачах, требующих сложного анализа и интерпретации.

В O3-Bench (карта 3) каждая аннотация включает в себя вопрос с шестью вариантами ответа и краткое объяснение с выделенными целевыми макетами для быстрой проверки, а также последовательные увеличенные фрагменты изображения для демонстрации цепочки доказательств в случаях, когда трудно различить мелкие детали.
В O3-Bench (карта 3) каждая аннотация включает в себя вопрос с шестью вариантами ответа и краткое объяснение с выделенными целевыми макетами для быстрой проверки, а также последовательные увеличенные фрагменты изображения для демонстрации цепочки доказательств в случаях, когда трудно различить мелкие детали.

Перспективы развития и широкие возможности применения

Полученные результаты наглядно демонстрируют значительные преимущества разделения процессов восприятия и логического мышления при решении сложных визуальных задач. Традиционные подходы зачастую объединяют эти два этапа, что ограничивает их способность эффективно обрабатывать неоднозначную или неполную информацию. Предложенная методика, напротив, позволяет сначала выделить ключевые визуальные признаки, а затем уже, на основе этих данных, проводить более глубокий анализ и принимать обоснованные решения. Такой подход не только повышает точность и надежность системы, но и открывает новые возможности для ее адаптации к различным условиям и задачам, представляя собой важный шаг на пути к созданию более интеллектуальных и гибких систем компьютерного зрения.

Сравнение с моделью `MME-RealWorld`, демонстрирующей точность в 83.8%, ярко подчеркивает возросшую сложность и вызовы, которые ставит перед исследователями бенчмарк `O3-Bench`. Данный факт указывает на то, что `O3-Bench` представляет собой более требовательную платформу для оценки систем компьютерного зрения, поскольку требует от них обработки более сложных и неоднозначных визуальных данных. Разница в результатах свидетельствует о необходимости разработки новых подходов и алгоритмов, способных эффективно справляться с повышенными трудностями, которые предлагает этот бенчмарк, и, таким образом, продвигать область компьютерного зрения вперед.

Дальнейшие исследования направлены на расширение возможностей разработанной системы путем применения её к более крупным и сложным наборам данных. Предполагается, что увеличение масштаба позволит выявить новые закономерности и повысить точность анализа в различных областях, включая обработку больших данных и создание автономных систем. Расширение фреймворка позволит автоматизировать сложные процессы анализа визуальной информации, открывая перспективы для применения в таких сферах, как интеллектуальный мониторинг, роботизированная навигация и автоматизированная диагностика, что в конечном итоге приведет к созданию более эффективных и надежных решений для решения сложных задач.

Модель InSight-o3-vS эффективно следует указаниям vReasoner и извлекает высококачественные фрагменты изображений, полностью соответствующие описанным областям, в то время как Qwen2.5-VL-7B в раунде 2 возвращает лишь частичные фрагменты и в раунде 3 не может извлечь корректный фрагмент, ошибочно заключая об отсутствии целевой области, что приводит к неверному ответу.
Модель InSight-o3-vS эффективно следует указаниям vReasoner и извлекает высококачественные фрагменты изображений, полностью соответствующие описанным областям, в то время как Qwen2.5-VL-7B в раунде 2 возвращает лишь частичные фрагменты и в раунде 3 не может извлечь корректный фрагмент, ошибочно заключая об отсутствии целевой области, что приводит к неверному ответу.

Исследование демонстрирует стремление к созданию не просто функциональных, но и элегантных систем искусственного интеллекта. В рамках представленного подхода InSight-o3, акцент делается на улучшении визуального поиска и логических рассуждений открытых моделей посредством обучения с подкреплением. Как однажды заметил Ян Лекун: «Машинное обучение — это просто способ автоматизировать процесс разработки алгоритмов». Это особенно актуально в контексте O3-Bench, представляющего собой сложный эталон для оценки мультимодальных способностей. Создание таких эталонов и эффективных агентов, как InSight-o3, требует глубокого понимания гармонии между формой и функцией, что, в конечном итоге, приводит к созданию систем, которые не просто работают, но и делают это изящно.

Куда же это всё ведёт?

Представленный подход, безусловно, открывает новые возможности для мультимодального рассуждения, но не стоит обольщаться. Создание эталонного набора данных, каким является O3-Bench, — это лишь первый, хоть и необходимый, шаг. Истинная сложность заключается не в количественном увеличении сложности задач, а в качественном переосмыслении самой парадигмы взаимодействия моделей с визуальным миром. Очевидно, что текущие методы, основанные на Reinforcement Learning, пока что лишь имитируют разумное поведение, а не демонстрируют подлинное понимание.

Особенно остро стоит вопрос об обобщении. Успешное решение задач в рамках O3-Bench не гарантирует устойчивости к незначительным изменениям в условиях или к новым, ранее не встречавшимся объектам. Истинная элегантность — это не способность заучивать ответы, а умение адаптироваться и экстраполировать знания. Следующим этапом, вероятно, станет разработка моделей, способных к активному обучению и самостоятельному формированию стратегий поиска, а не просто к слепому следованию заданным алгоритмам.

Нельзя забывать и о фундаментальных ограничениях. Визуальный поиск, каким бы совершенным он ни был, остаётся лишь инструментом. Подлинный прогресс требует интеграции с другими когнитивными функциями — планированием, абстрактным мышлением, способностью к саморефлексии. И тогда, возможно, мы сможем приблизиться к созданию систем, которые не просто «видят», но и «понимают» мир вокруг нас — и, возможно, даже нас самих.


Оригинал статьи: https://arxiv.org/pdf/2512.18745.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-30 03:51