Автор: Денис Аветисян
Исследователи предлагают инновационный метод, позволяющий мультимодальным моделям генерировать и использовать скрытые визуальные ‘эскизы’ для улучшения логических рассуждений и понимания изображений.
Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.
Купить акции "голубых фишек"
В статье представлена парадигма Sketch-in-Latents (SkiLa), позволяющая мультимодальным большим языковым моделям осуществлять унифицированные рассуждения посредством генерации и интеграции скрытых визуальных токенов.
Несмотря на успехи мультимодальных больших языковых моделей в понимании визуальной информации, их способность к визуальному воображению остается ограниченной. В работе ‘Sketch-in-Latents: Eliciting Unified Reasoning in MLLMs’ предложен новый подход, позволяющий интегрировать визуальные представления непосредственно в процесс рассуждений, имитируя гибкость человеческого мышления. Авторы демонстрируют, что путем генерации и использования «латентных эскиз-токенов», модель способна объединить визуальные и текстовые данные в едином пространстве, расширяя возможности авторегрессивного процесса. Открывает ли это путь к созданию более интеллектуальных и универсальных мультимодальных систем, способных к комплексному визуальному и логическому мышлению?
Визуальное мышление: преодолевая границы языковых моделей
Традиционные большие языковые модели, демонстрирующие впечатляющие результаты в обработке и генерации текста, часто сталкиваются с трудностями при анализе визуальной информации. Неспособность эффективно интегрировать и интерпретировать изображения ограничивает их применимость в задачах, требующих понимания окружающего мира, таких как навигация роботов, анализ медицинских снимков или даже простое описание содержимого фотографии. В то время как модели могут успешно обрабатывать текстовые запросы, связанные с визуальными объектами, им не хватает способности самостоятельно извлекать значимую информацию непосредственно из изображений, что создает существенный барьер для их использования в сложных, реальных сценариях, где визуальное восприятие играет ключевую роль.
Растущая потребность в искусственном интеллекте, способном понимать и сопоставлять информацию, представленную в различных форматах, привела к активной разработке мультимодальных больших языковых моделей (MLLM). Эти модели, в отличие от традиционных LLM, ориентированных исключительно на текст, способны обрабатывать и интегрировать данные из разных источников, включая изображения. Это позволяет им решать более сложные задачи, требующие визуального понимания и логических выводов на основе комбинации текстовой и визуальной информации. Разработка MLLM открывает новые возможности в областях, где необходимо взаимодействие с реальным миром, например, в робототехнике, автономном вождении и медицинском анализе изображений, представляя собой значительный шаг вперёд в развитии искусственного интеллекта.

Кодирование визуальной информации для языковых моделей
Мультимодальные большие языковые модели (MLLM) используют визуальный энкодер для преобразования изображений в формат, понятный языковой модели. Этот процесс включает в себя извлечение признаков из визуальных данных и их кодирование в векторное представление, которое затем может быть обработано LLM. Фактически, визуальный энкодер выполняет роль переводчика, преобразуя визуальную информацию в текстовый формат, позволяя модели понимать и рассуждать на основе изображений. Различные архитектуры визуальных энкодеров, такие как сверточные нейронные сети (CNN) или трансформаторы, могут быть использованы для этой цели, каждая из которых имеет свои преимущества и недостатки в плане точности и вычислительной эффективности.
Простая кодировка изображений недостаточно для эффективной работы мультимодальных больших языковых моделей (MLLM). Для обеспечения точного рассуждения крайне важно сохранение семантической точности при преобразовании визуальных данных в текстовый формат. Потеря или искажение ключевой информации об объектах, их взаимосвязях и контексте на этапе кодирования приводит к снижению качества ответов модели и ошибкам в процессе логического вывода. Это требует применения продвинутых методов кодирования, направленных на максимальное сохранение семантического содержания изображения и минимизацию потерь информации при его представлении в виде вектора признаков, понятного языковой модели.

Восстановление семантики: привязка визуальных представлений
Восстановление скрытых визуальных семантических признаков является ключевым механизмом для обеспечения семантической привязанности закодированной визуальной информации. Этот процесс позволяет модели сохранять существенные детали изображения, предотвращая потерю информации при переходе от исходного изображения к его латентному представлению. По сути, восстановление заставляет модель не только сжимать визуальные данные, но и уметь их воссоздавать, что подтверждает сохранение семантически значимых признаков и способствует более эффективному представлению визуальной информации для последующих задач.
Процесс реконструкции использует энкодер эскизов, в частности SigLIP2, для генерации промежуточных эскизов в качестве целей реконструкции. SigLIP2 преобразует входное изображение в компактное представление, которое затем используется для воссоздания эскиза. Данный подход вынуждает модель сохранять существенные визуальные характеристики, поскольку успешная реконструкция эскиза требует от модели понимания и удержания ключевых деталей изображения. Использование эскизов в качестве промежуточных целей позволяет модели эффективно кодировать и восстанавливать важную визуальную информацию, улучшая ее способность к обобщению и решению задач, связанных с визуальным восприятием.
Для количественной оценки расхождения между реконструированным и исходным эскизом используются функции потерь, такие как среднеквадратичная ошибка (MSE Loss) и косинусное сходство. $MSE Loss$ измеряет среднюю квадратичную разницу между значениями пикселей, в то время как косинусное сходство оценивает угол между векторами признаков, представляющими эскизы. Минимизация этих функций потерь в процессе обучения направляет модель к сохранению семантически значимых визуальных деталей, что в конечном итоге обеспечивает передовые результаты в задачах, ориентированных на компьютерное зрение.

Многомодальные цепочки рассуждений: расширяя границы понимания
Метод многомодального рассуждения «Цепочка мыслей» является развитием уже известных техник, позволяя мультимодальным большим языковым моделям (MLLM) последовательно решать сложные задачи, связанные с визуальной информацией. Вместо того, чтобы пытаться сразу найти ответ, модель разбивает проблему на ряд более простых шагов, каждый из которых требует отдельного анализа и рассуждения. Такой подход позволяет модели не просто «видеть» изображение, но и логически обрабатывать его содержание, выстраивая цепочку умозаключений, необходимых для достижения конечного результата. Это значительно повышает эффективность решения задач, требующих не только распознавания объектов, но и понимания их взаимосвязей и контекста.
Данный подход позволяет модели генерировать код для программной визуальной манипуляции, фактически “действуя” с изображениями для решения задач или ответов на вопросы. Вместо простого анализа изображения, система способна выполнять последовательность операций — например, обрезать, вращать или выделять определенные области — на основе логических рассуждений. Такая возможность привела к повышению точности на 3,3% по сравнению с базовыми моделями при решении задач TextVQA, где требуется понимание как визуальной информации, так и текстовых запросов. Это демонстрирует, что способность к активному взаимодействию с изображениями, а не только к их пассивному восприятию, является ключевым фактором для улучшения производительности мультимодальных систем.
Единые фундаментальные модели стали ключевым элементом в развитии мультимодального искусственного интеллекта, обеспечивая бесшовную интеграцию обработки изображений и текста в рамках единой архитектуры. Такой подход позволяет модели не просто анализировать визуальную информацию, но и генерировать связные текстовые ответы, что существенно повышает её способность к решению сложных задач. В результате, подобные модели демонстрируют передовые результаты на ключевых бенчмарках, таких как MMVP и RealWorldQA (RWQA), достигая наивысшей зарегистрированной точности и подтверждая свою эффективность в понимании и взаимодействии с реальным миром.

Исследование демонстрирует, что эффективное визуальное мышление требует не просто распознавания образов, но и их последовательной интеграции в логическую структуру. Подход Sketch-in-Latents, представленный в данной работе, акцентирует внимание на генерации латентных визуальных ‘эскиз-токенов’ как способа унифицировать рассуждения мультимодальных больших языковых моделей. Это согласуется с высказыванием Джеффри Хинтона: «Иногда лучший способ понять что-то — это попытаться это воссоздать». Воссоздание визуальной информации в форме этих токенов позволяет модели не только интерпретировать увиденное, но и активно конструировать внутреннее представление, углубляя понимание и повышая способность к сложному визуальному мышлению. Подобный процесс способствует более надежной реконструкции визуальных семантических связей, что является ключевым для достижения истинного искусственного интеллекта.
Что дальше?
Предложенный подход к генерации и интеграции латентных «набросков» представляется не просто техническим усовершенствованием, но и попыткой приблизиться к пониманию того, как модели, подобные человеческому разуму, структурируют визуальную информацию. Однако, возникает закономерный вопрос: достаточно ли этих «набросков» для истинного понимания? Модель, безусловно, научилась генерировать визуально-согласованные представления, но насколько глубоко она способна интерпретировать их семантическое содержание вне контекста заданного вопроса?
Очевидным направлением дальнейших исследований является расширение набора латентных токенов и разработка более сложных механизмов их взаимодействия с текстовыми данными. Необходимо изучить, возможно ли применение данного подхода не только для улучшения визуального рассуждения, но и для решения задач, требующих более абстрактного мышления, например, генерации креативных концепций или построения гипотез. Остаётся открытым вопрос о масштабируемости данного подхода: насколько эффективно он будет работать с более сложными и неоднозначными визуальными сценами?
В конечном счёте, истинный прогресс в области мультимодального обучения требует не просто создания более мощных моделей, но и разработки методов оценки их способности к истинному пониманию. Необходимо отойти от традиционных метрик точности и сосредоточиться на оценке способности моделей к обобщению, адаптации и решению новых, нетривиальных задач. Возможно, ключ к успеху лежит не в увеличении размера моделей, а в более глубоком понимании принципов, лежащих в основе человеческого познания.
Оригинал статьи: https://arxiv.org/pdf/2512.16584.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Аналитический обзор рынка (15.12.2025 16:32)
- Прогноз курса евро к йене на 2025 год
- Неважно, на что вы фотографируете!
- Лучшие смартфоны. Что купить на Новый Год. Идеи для подарка в декабре 2025.
- Подводная съёмка. Как фотографировать под водой.
- Honor MagicPad 2 12,3 дюйма на обзор
- vivo Y19s Pro ОБЗОР: удобный сенсор отпечатков, большой аккумулятор, яркий экран
- Обзор фотокамеры Nikon D90.
- Прогноз курса юаня к рублю на 2025 год
- Аналитический обзор рынка (18.12.2025 11:32)
2025-12-21 02:27