Визуальный поиск ответа: новый подход к извлечению знаний из документов

Автор: Денис Аветисян


Исследователи представили VisionRAG — систему, использующую пирамидальную индексацию изображений страниц для существенного повышения точности поиска и ответа на вопросы по документам, особенно в сфере финансов.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Эволюция методов поиска информации в документах демонстрирует переход от сглаживания визуальной структуры при использовании OCR-RAG к добавлению визуальной осведомленности посредством плотных векторных представлений страниц в ColPali, однако VisionRAG представляет собой качественно новый подход, использующий пирамидальное индексирование с семантическим объединением на различных уровнях документа, что позволяет достичь сопоставимой точности с использованием всего 12-17 векторов на страницу и без зависимости от OCR.
Эволюция методов поиска информации в документах демонстрирует переход от сглаживания визуальной структуры при использовании OCR-RAG к добавлению визуальной осведомленности посредством плотных векторных представлений страниц в ColPali, однако VisionRAG представляет собой качественно новый подход, использующий пирамидальное индексирование с семантическим объединением на различных уровнях документа, что позволяет достичь сопоставимой точности с использованием всего 12-17 векторов на страницу и без зависимости от OCR.

Предлагаемый метод использует многоуровневую семантическую индексацию изображений документов для улучшения систем Retrieval-Augmented Generation (RAG).

Несмотря на успехи систем извлечения информации на основе текста, традиционные подходы часто уязвимы к изменениям макета и теряют важные пространственные подсказки в документах. В статье ‘Beyond Patch Aggregation: 3-Pass Pyramid Indexing for Vision-Enhanced Document Retrieval’ представлен VisionRAG — новая система поиска, индексирующая документы напрямую как изображения с помощью пирамидальной структуры семантических индексов. Такой подход позволяет добиться высокой точности и эффективности ответа на вопросы, особенно в сложных финансовых контекстах, избегая необходимости в оптическом распознавании символов. Способно ли предложенное решение стать масштабируемой альтернативой традиционным методам обработки документов и открыть новые возможности для многомодального поиска?


Преодолевая Ограничения Традиционного Анализа Документов

Традиционные методы анализа документов, основанные на простом сопоставлении ключевых слов, часто оказываются неэффективными при работе с реальными текстами. Сложность заключается в том, что современные документы содержат не только текст, но и сложные структуры, таблицы, изображения и разнообразные форматы. Для полноценного понимания требуется не просто найти определенные слова, а провести глубокий семантический анализ, установить связи между различными частями документа и сделать логические выводы. Например, извлечение информации из финансового отчета требует понимания бухгалтерских терминов и умения интерпретировать данные, представленные в табличном виде, что выходит за рамки простого поиска по ключевым словам. Поэтому, для обработки сложных документов необходимы системы, способные к рассуждениям и пониманию контекста, а не только к механическому сопоставлению символов.

Существующие подходы к ответу на вопросы по документам часто упускают из виду критически важную визуальную информацию, необходимую для полноценного понимания. В то время как большинство систем фокусируются исключительно на текстовом содержании, значительная часть смысла документов заключается в их визуальной структуре — расположении таблиц, диаграмм, заголовков, шрифтов и других элементов оформления. Игнорирование этих визуальных признаков приводит к неполному или неверному извлечению информации, особенно в сложных документах, таких как научные статьи, финансовые отчеты или юридические контракты. Исследования показывают, что интеграция визуальной информации в процесс анализа документов значительно повышает точность и эффективность систем Question Answering, позволяя им решать более сложные задачи и приближаясь к человеческому уровню понимания.

Система Vision RAG демонстрирует стабильную производительность извлечения информации, варьирующуюся в зависимости от возможностей визуального восприятия используемой языковой модели.
Система Vision RAG демонстрирует стабильную производительность извлечения информации, варьирующуюся в зависимости от возможностей визуального восприятия используемой языковой модели.

VisionRAG: Многомодальный Подход к Извлечению Знаний

VisionRAG представляет собой систему генерации на основе извлечения (Retrieval-Augmented Generation), объединяющую визуальные и текстовые данные для повышения эффективности понимания документов. В отличие от традиционных подходов, работающих только с текстом, VisionRAG использует как текстовое содержание документа, так и визуальные элементы, такие как изображения и графики, в процессе извлечения релевантной информации. Это позволяет системе лучше понимать контекст и более точно отвечать на запросы, особенно в случаях, когда визуальная информация является критически важной для понимания смысла документа. Такой подход расширяет возможности обработки информации и позволяет решать задачи, требующие анализа как текста, так и изображений.

Система VisionRAG использует модели «зрение-язык», такие как ColPali, для создания плотных векторных представлений (embeddings) как визуального, так и текстового содержимого документов. Этот подход позволяет преобразовать изображения и текст в числовые векторы, отражающие их семантическое значение. Плотные embeddings, в отличие от разреженных представлений, позволяют более эффективно вычислять семантическое сходство между различными частями документов и запросами пользователей. ColPali, как пример используемой модели, обучена на больших объемах данных, что позволяет ей формировать embeddings, улавливающие сложные взаимосвязи между визуальной и текстовой информацией, тем самым обеспечивая более глубокое понимание содержания документа.

Многоуровневый поиск, основанный на пирамидальном индексировании (Pyramid Indexing), значительно повышает полноту поиска (recall) за счет эффективного анализа документа на различных уровнях гранулярности. Вместо традиционного поиска по одному индексу, система создает и использует несколько индексов, охватывающих различные фрагменты документа — от целых страниц и абзацев до отдельных предложений и ключевых слов. Это позволяет находить релевантную информацию даже в случаях, когда запрос не содержит точных совпадений с полным текстом, поскольку поиск осуществляется одновременно по нескольким уровням детализации. Применение пирамидального индексирования обеспечивает более широкий охват релевантных документов и, как следствие, повышает точность извлечения информации из больших объемов данных.

ColPali и VisionRAG представляют собой два подхода к обработке визуальной информации: ColPali кодирует плотные патчи с поздним взаимодействием, а VisionRAG строит компактные многоуровневые индексы и объединяет результаты с помощью Reciprocal Rank Fusion (RRF).
ColPali и VisionRAG представляют собой два подхода к обработке визуальной информации: ColPali кодирует плотные патчи с поздним взаимодействием, а VisionRAG строит компактные многоуровневые индексы и объединяет результаты с помощью Reciprocal Rank Fusion (RRF).

Повышение Семантической Точности посредством Слияния и Извлечения

Явное семантическое объединение (Explicit Semantic Fusion) повышает релевантность извлеченных данных путем комбинирования сигналов из различных источников информации. В основе метода лежит Reciprocal Rank Fusion (RRF), алгоритм, который агрегирует ранжированные списки результатов, полученные из разных источников. RRF оценивает позиции документов в каждом списке и вычисляет итоговый ранг, учитывая взаимное влияние позиций. Это позволяет более точно определить наиболее релевантные документы, чем простое объединение списков или усреднение рангов, поскольку учитывается как позиция документа в каждом источнике, так и общее качество этого источника. Использование RRF эффективно снижает влияние низкокачественных источников и усиливает вклад высокорелевантных данных.

Извлечение фактов представляет собой процесс идентификации и структурирования атомарных утверждений, содержащихся в текстовых документах. В отличие от общего понимания текста, извлечение фактов направлено на выявление конкретных, проверяемых утверждений, которые могут быть представлены в виде троек “субъект-отношение-объект”. Это позволяет обеспечить более точную и обоснованную генерацию ответов, поскольку ответы основываются не на общем контексте документа, а на конкретных, извлеченных фактах. Использование извлеченных фактов также облегчает проверку достоверности генерируемых ответов и обеспечивает возможность ссылок на исходные документы, подтверждающие эти факты.

VisionRAG использует метод суммирования страниц (Page Summary) для сокращения объема обрабатываемой документации, что повышает эффективность поиска релевантной информации и снижает вычислительные затраты. Этот подход предполагает сжатие содержимого каждой страницы документа до краткого резюме, которое затем используется в процессе поиска вместо исходного текста. Уменьшение объема данных, поступающих в систему поиска, приводит к ускорению обработки запросов и снижению требований к памяти и вычислительной мощности, особенно при работе с большими объемами документов. Такое сжатие позволяет VisionRAG более эффективно обрабатывать визуальный и текстовый контент, оптимизируя производительность системы и снижая задержки при ответах на запросы.

Эксперименты с Vision RAG на FinanceBench показали, что увеличение глубины поиска положительно влияет на полноту извлечения информации (Recall@10) и качество ранжирования (nDCG@10), сохраняя высокую точность ответов на 148 проверенных вопросах.
Эксперименты с Vision RAG на FinanceBench показали, что увеличение глубины поиска положительно влияет на полноту извлечения информации (Recall@10) и качество ранжирования (nDCG@10), сохраняя высокую точность ответов на 148 проверенных вопросах.

Архитектурные Основы и Возможности Масштабирования

В основе VisionRAG лежит векторная база данных ChromaDB, обеспечивающая эффективное хранение и извлечение как текстовых, так и визуальных эмбеддингов. Этот подход позволяет системе преобразовывать сложные данные — текст и изображения — в числовые векторы, отражающие их семантическое значение. ChromaDB оптимизирована для быстрого поиска ближайших соседей в многомерном пространстве, что критически важно для извлечения релевантной информации по запросу пользователя. Благодаря этому, VisionRAG способна быстро находить и объединять информацию из текстовых и визуальных источников, значительно превосходя традиционные методы поиска по ключевым словам. Эффективность ChromaDB позволяет масштабировать систему, обрабатывая большие объемы данных и обеспечивая высокую скорость отклика даже при сложных запросах.

В системе VisionRAG применяются методы расширения запросов для повышения эффективности поиска релевантной информации. Вместо того чтобы ограничиваться буквальным значением введенного пользователем запроса, система автоматически дополняет его синонимами, связанными понятиями и альтернативными формулировками. Этот подход значительно расширяет область поиска, позволяя находить документы, которые могут содержать ответы, даже если они не используют точно такие же слова, как исходный запрос. Расширение запросов особенно полезно при работе с нечеткими или неполными запросами, а также в ситуациях, когда пользователь может не знать точные термины, необходимые для поиска. В результате, улучшается полнота поиска — показатель, отражающий способность системы находить все релевантные документы — и повышается вероятность получения пользователем исчерпывающего ответа на свой вопрос.

Система VisionRAG использует технологию определения визуальных ключевых точек внутри документов, что позволяет ей концентрироваться на наиболее значимых областях изображения. Этот подход значительно повышает точность извлечения информации, поскольку система не тратит ресурсы на анализ нерелевантных участков. Определение визуальных ключевых точек осуществляется путем анализа плотности и значимости визуальных элементов, таких как текст, диаграммы или объекты, выделяя наиболее важные зоны для последующего анализа и сопоставления с текстовым содержанием. В результате, система способна эффективно фильтровать лишнюю информацию и предоставлять пользователю только наиболее релевантные результаты, что особенно важно при работе с большими объемами визуального контента.

Наши результаты на FinanceBench демонстрируют стабильно высокую производительность Vision RAG фреймворка при использовании различных моделей обработки изображений и текста, сопоставимую с базовым уровнем GPT-4o.
Наши результаты на FinanceBench демонстрируют стабильно высокую производительность Vision RAG фреймворка при использовании различных моделей обработки изображений и текста, сопоставимую с базовым уровнем GPT-4o.

Исследование, представленное в данной работе, демонстрирует стремление к созданию детерминированных систем извлечения информации. Авторы предлагают VisionRAG, систему, основанную на пирамидальном индексировании, что позволяет достичь высокой точности и эффективности при поиске ответов на вопросы, особенно в сложных финансовых документах. Этот подход к семантическому слиянию визуальной и текстовой информации подчеркивает важность математической чистоты алгоритмов. Как однажды заметил Винтон Серф: «Интернет — это не просто технология, это способ мышления». Эта фраза отражает суть представленной работы: создание системы, способной «мыслить» логически и предоставлять достоверные ответы, а не просто «работать» на тестовых данных.

Куда Далее?

Представленная работа, хоть и демонстрирует значительное улучшение в извлечении информации из документов, особенно в сложных финансовых контекстах, оставляет ряд вопросов, требующих дальнейшего исследования. Эффективность VisionRAG неразрывно связана с качеством извлекаемых семантических индексов. Возникает закономерный вопрос: насколько универсальна данная архитектура для документов, различающихся по структуре и содержанию? Неизбежно, возникновение «шума» в индексах, вызванного несовершенством алгоритмов семантического анализа, будет ограничивать дальнейшее повышение точности.

В перспективе, представляется целесообразным изучение возможности адаптивной настройки пирамидального индекса, учитывающей специфику конкретного типа документов. Применение методов доказательной верификации для гарантии корректности извлеченных индексов представляется не просто желательным, но и необходимым шагом к созданию действительно надежных систем извлечения знаний. Попытки интеграции формальных методов верификации с архитектурами глубокого обучения, хотя и сложны, могут привести к созданию систем, не просто «работающих на тестах», но и обладающих математической чистотой.

Наконец, не стоит забывать о вычислительной стоимости создания и поддержания пирамидального индекса. Поиск оптимального баланса между точностью, эффективностью и вычислительными ресурсами — вот та задача, которая и определяет истинную элегантность любого алгоритма.


Оригинал статьи: https://arxiv.org/pdf/2511.21121.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-30 13:21