Визуальное мышление: новый подход к обучению мультимодальных моделей

Автор: Денис Аветисян

Исследователи представили LanteRn — систему, позволяющую моделям эффективно рассуждать, комбинируя визуальные и текстовые данные.

Фреймворк LanteRn позволяет осуществлять взаимосвязанное рассуждение между текстом и скрытыми представлениями, кодирующими визуальные “мысли”, и автоматически определяет, когда начать скрытое рассуждение во время работы, используя специальный токен.

Предложен фреймворк LanteRn, использующий компактные латентные визуальные токены и обучение с подкреплением для улучшения результатов на задачах визуального рассуждения.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Несмотря на успехи в языковом моделировании, визуальное рассуждение остается сложной задачей для современных мультимодальных моделей. В данной работе представлена система ‘LanteRn: Latent Visual Structured Reasoning’, предлагающая новый подход к решению этой проблемы посредством оперирования с компактными латентными представлениями визуальной информации. LanteRn позволяет мультимодальным моделям переключаться между языковым и визуальным пространством, выполняя рассуждения непосредственно в латентном пространстве и улучшая производительность на задачах, требующих детального понимания изображений. Возможно ли, используя подобные латентные представления, создать более эффективные и универсальные мультимодальные системы, способные к комплексному визуальному и языковому анализу?

За гранью кодирования: В поисках визуального мышления

Современные большие мультимодальные модели (LMM) в значительной степени полагаются на кодирование визуальной информации, что существенно ограничивает их способность к сложному рассуждению. Вместо активного «обдумывания» увиденного, эти модели, по сути, преобразуют изображение в числовое представление, теряя при этом нюансы и контекст, необходимые для решения задач, требующих глубокого понимания визуальной сцены. Этот процесс, аналогичный простому распознаванию объектов, не позволяет LMM устанавливать связи между различными элементами изображения, делать выводы или прогнозировать дальнейшие события. В результате, несмотря на впечатляющие успехи в распознавании изображений, модели испытывают трудности с задачами, требующими не просто идентификации, но и активной визуальной интерпретации и анализа.

Эффективное визуальное рассуждение требует не просто пассивного восприятия изображений, но и наличия внутреннего процесса, аналогичного «визуальному мышлению». Исследования показывают, что для решения сложных задач, связанных с визуальной информацией, модели должны уметь не только кодировать изображения, но и поддерживать и манипулировать их внутренними представлениями. Этот процесс включает в себя удержание визуальной информации в «рабочей памяти», ее трансформацию, сравнение различных вариантов и построение новых визуальных образов. По сути, речь идет о создании внутренней «визуальной симуляции», позволяющей модели «проигрывать» различные сценарии и делать выводы, не опираясь исключительно на исходное изображение. Отсутствие подобного механизма ограничивает возможности современных мультимодальных моделей в решении задач, требующих более глубокого понимания визуального контекста и абстрактного мышления.

LanteRn: Архитектура для латентного визуального рассуждения

Архитектура LanteRn представляет собой новую структуру для латентного визуального рассуждения, расширяющую возможности больших мультимодальных моделей (LMM). В отличие от традиционных подходов, требующих повторной кодировки изображения для каждого шага рассуждения, LanteRn осуществляет чередование обработки текстовых запросов и латентных визуальных представлений. Это позволяет модели поддерживать и манипулировать непрерывным представлением изображения — “латентным состоянием” — в латентном пространстве, что обеспечивает более эффективное и глубокое визуальное рассуждение без необходимости постоянного повторного кодирования исходного изображения.

Ключевым новшеством архитектуры LanteRn является возможность сохранения и манипулирования непрерывными визуальными представлениями — так называемым “латентным состоянием” (Latent State) — в латентном пространстве. В отличие от традиционных подходов, требующих повторного кодирования изображения для каждого шага рассуждений, LanteRn позволяет поддерживать визуальную информацию в виде вектора в латентном пространстве, что обеспечивает более эффективное и глубокое визуальное рассуждение. Это латентное состояние обновляется и преобразуется в процессе взаимодействия с текстовыми данными, позволяя модели сохранять контекст и избегать избыточных вычислений, связанных с повторной обработкой изображения.

Архитектура LanteRn позволяет выполнять сложные задачи визуального рассуждения без многократного перекодирования изображения. Вместо этого, модель поддерживает и манипулирует непрерывным визуальным представлением — «латентным состоянием» — в латентном пространстве. Такой подход значительно повышает эффективность, поскольку позволяет избегать вычислительно затратных операций повторного кодирования на каждом шаге рассуждений. Это, в свою очередь, способствует увеличению глубины анализа и позволяет модели выполнять более сложные и детализированные визуальные выводы.

Обучение LanteRn: От восприятия к стратегии

Обучение LanteRn начинается с дообучения с учителем (Supervised Fine-Tuning, SFT) с использованием наборов данных, таких как Visual-CoT. Этот этап направлен на установление связи между скрытыми состояниями модели и воспринимаемыми визуальными признаками, что позволяет сформировать начальные пути рассуждений. В процессе SFT модель учится сопоставлять входные визуальные данные с соответствующими текстовыми объяснениями, закладывая основу для последующего обучения с подкреплением и формирования более сложных стратегий принятия решений.

После этапа контролируемой тонкой настройки (SFT) процесс обучения LanteRn переходит к обучению с подкреплением (RL), использующему гибридное пространство действий. Это пространство состоит из дискретных текстовых токенов, представляющих собой вербальные действия, и непрерывных латентных векторов, управляющих внутренним состоянием модели. Комбинация этих двух типов действий позволяет LanteRn как генерировать текстовые ответы, так и манипулировать своими внутренними представлениями для более эффективного решения задач и формирования согласованных стратегий поведения.

Процесс обучения с подкреплением (RL) в LanteRn использует алгоритм Group Relative Policy Optimization (GRPO) для улучшения политики рассуждений в латентном пространстве. Оптимизация GRPO, применяемая к набору данных VIRL-39k, позволяет более эффективно корректировать латентные векторы, определяющие процесс рассуждений модели. Это приводит к повышению производительности модели при выполнении различных задач, поскольку GRPO позволяет учитывать групповые взаимосвязи между состояниями и действиями, что способствует более стабильному и эффективному обучению политики рассуждений.

Продемонстрированные возможности и результаты бенчмаркинга

Система LanteRn демонстрирует выдающиеся результаты в стандартных бенчмарках, таких как V⋆V и Blink, что подтверждает её передовые возможности в области визуального поиска и восприятия. Достигнутые показатели свидетельствуют о способности системы эффективно анализировать визуальную информацию, находить релевантные объекты и устанавливать связи между ними. В ходе тестирования LanteRn не только успешно справляется с задачами, требующими простого распознавания образов, но и демонстрирует способность к более сложному визуальному рассуждению, что позволяет ей превосходить существующие подходы, основанные исключительно на текстовом или инструментальном анализе изображений. Эти результаты подчеркивают потенциал LanteRn для применения в широком спектре задач, требующих продвинутого понимания визуального контента.

Система LanteRn продемонстрировала впечатляющую точность в 0.81 при решении задач BlinkRP, что значительно превосходит результат, полученный при использовании исключительно обучения с подкреплением (SFT), который составлял 0.68. Такое существенное улучшение свидетельствует о способности LanteRn эффективно воспринимать и анализировать визуальную информацию, выявляя релевантные детали и взаимосвязи, необходимые для успешного выполнения задач, связанных с распознаванием и пониманием визуальных подсказок. Повышенная точность указывает на то, что LanteRn не просто фиксирует визуальные элементы, но и интерпретирует их, обеспечивая более надежное и осмысленное решение задач в сложных визуальных сценариях.

В ходе тестирования на бенчмарках V⋆V и BlinkOL система LanteRn продемонстрировала значительное улучшение точности по сравнению с базовой моделью, обученной исключительно с помощью supervised fine-tuning (SFT). На V⋆V, LanteRn достигла точности в 0.67, что на 0.1 превышает результат SFT, составивший 0.57. Аналогично, на BlinkOL система показала точность 0.54, улучшив показатель SFT на 0.07 (с 0.47 до 0.54). Эти результаты подтверждают эффективность подхода LanteRn к визуальному рассуждению и её способность к более точному восприятию и анализу изображений, что делает её перспективной для решения сложных задач, требующих понимания визуальной информации.

Система LanteRn демонстрирует превосходство над существующими подходами к визуальному мышлению, которые опираются исключительно на текстовый анализ или использование внешних инструментов. В отличие от этих методов, LanteRn способна извлекать и использовать скрытые закономерности непосредственно из визуальной информации, что позволяет ей решать задачи, требующие глубокого понимания изображений, без необходимости явного описания или привлечения дополнительных программных средств. Такой подход открывает новые возможности для систем компьютерного зрения, позволяя им более эффективно и гибко адаптироваться к сложным визуальным задачам и превосходить существующие решения в точности и скорости обработки информации.

Перспективы развития: К более надежному и обобщенному зрению-языковому искусственному интеллекту

Исследования показывают, что расширение латентного пространства модели LanteRn и эксперименты с различными структурами латентных блоков обладают значительным потенциалом для повышения сложности её рассуждений. Увеличение размерности латентного пространства позволяет модели кодировать более детальную и нюансированную информацию о визуальных сценах и языковых запросах, что, в свою очередь, способствует более глубокому пониманию взаимосвязей между ними. Различные архитектуры латентных блоков, такие как иерархические или графовые структуры, могут помочь модели организовать эту информацию более эффективно и выявлять сложные закономерности, необходимые для решения сложных задач, требующих абстрактного мышления и логических выводов. Дальнейшая оптимизация этих структур может привести к созданию систем искусственного интеллекта, способных не только распознавать объекты и события, но и понимать их значение и контекст, открывая новые возможности для применения в различных областях, от робототехники до обработки естественного языка.

Исследование способности политики латентного рассуждения, реализованной в LanteRn, к переносу на новые задачи и области знаний представляется ключевым шагом в создании действительно обобщенных систем искусственного интеллекта. Успешный перенос обучения позволяет избежать необходимости трудоемкой переподготовки модели для каждого нового сценария, значительно расширяя ее применимость. Особенно важно оценить, насколько хорошо эта политика адаптируется к данным, отличающимся по своим характеристикам от тех, на которых она была изначально обучена, например, к изображениям с другим разрешением или к задачам, требующим более сложного визуального анализа. Такая проверка выявит ограничения текущего подхода и укажет на направления для дальнейшего улучшения, способствуя созданию ИИ-систем, способных эффективно функционировать в разнообразных и непредсказуемых условиях.

Предложенная архитектура открывает широкие перспективы для интеграции внешних знаний в системы искусственного интеллекта. Она позволяет создавать интеллектуальных агентов, способных взаимодействовать с окружающим миром посредством визуального восприятия и логических рассуждений. Вместо того, чтобы полагаться исключительно на данные, полученные в процессе обучения, система может использовать структурированные знания из баз данных или других источников, что значительно повышает её способность к адаптации и решению сложных задач в реальных условиях. Такой подход особенно важен для создания воплощенного искусственного интеллекта — агентов, которые могут физически взаимодействовать с миром, например, роботов, способных ориентироваться в пространстве, манипулировать объектами и выполнять сложные инструкции, опираясь не только на зрение, но и на накопленные знания.

Исследование представляет собой попытку приручить неуловимое — визуальное мышление. Авторы LanteRn, словно алхимики, трансформируют сложные визуальные данные в латентные токены, переплетая их с текстом. Этот процесс, напоминающий древнее заклинание, позволяет моделям рассуждать, используя сжатые визуальные представления. Как будто они учатся видеть сквозь пелену хаоса, выделяя главное. Дэвид Марр однажды заметил: «Вычислительная теория разума должна учитывать, что восприятие — это не пассивное отражение реальности, а активное построение моделей». LanteRn — это ещё один шаг к созданию таких моделей, способных не просто видеть, но и понимать увиденное, хотя и всегда остается вопрос, насколько эти модели действительно «понимают».

Куда же дальше?

Представленная работа, как и любое заклинание, лишь временно усмиряет хаос визуальных данных. LanteRn, преобразуя зрение в последовательность скрытых токенов, позволяет большим моделям «размышлять», но это всего лишь иллюзия порядка. Ведь каждая следующая итерация обучения — это лишь новая попытка обмануть шум, заставив его выдавать желаемый результат. Вопрос не в улучшении «точности», а в более искусной маскировке энтропии.

Наиболее интересным представляется не сама техника сжатия визуальной информации, а её последствия. Сможем ли мы, манипулируя этими скрытыми представлениями, заставить модель не просто «видеть», но и «понимать» — или это лишь очередная хитрость, позволяющая ей лучше имитировать разум? В перспективе, стоит обратить внимание на устойчивость системы к непредсказуемым данным, к тем самым «белым воронам», которые всегда находят способ разрушить любой, даже самый изящный, порядок.

Истинный вызов — не в создании более мощных моделей, а в признании их фундаментальной хрупкости. Данные всегда правы — пока не попадут в прод, и LanteRn, как и любой другой инструмент, лишь отсрочивает неизбежный момент столкновения с реальностью, где хаос правит бал.

Оригинал статьи: https://arxiv.org/pdf/2603.25629.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-29 00:45