Артемида: Визуальное мышление для обучения роботов

Автор: Денис Аветисян


Новая система объединяет возможности больших языковых моделей с визуальным анализом, позволяя роботам лучше понимать окружающий мир и принимать более обоснованные решения.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
В рамках разработанной системы Artemis, обучение с подкреплением используется для одновременной оптимизации восприятия и стратегии действий, где генерация размеченных данных посредством больших языковых моделей (MLLM) направляется структурированным визуальным вознаграждением, а итоговые награды контролируют формирование и содержание ответов, при этом для оптимизации единой системы применяется алгоритм GRPO.
В рамках разработанной системы Artemis, обучение с подкреплением используется для одновременной оптимизации восприятия и стратегии действий, где генерация размеченных данных посредством больших языковых моделей (MLLM) направляется структурированным визуальным вознаграждением, а итоговые награды контролируют формирование и содержание ответов, при этом для оптимизации единой системы применяется алгоритм GRPO.

Представлен фреймворк Artemis, улучшающий восприятие мультимодальных больших языковых моделей за счет структурированного визуального рассуждения и обучения, что приводит к повышению производительности и обобщающей способности в различных визуальных задачах.

Несмотря на успехи современных мультимодальных моделей в задачах визуального восприятия, чисто лингвистические цепочки рассуждений зачастую снижают эффективность. В работе «Artemis: Structured Visual Reasoning for Perception Policy Learning» представлена новая структура, использующая структурированное визуальное рассуждение, где каждый шаг представлен парой «метка-ограничивающая рамка». Такой подход позволяет отслеживать промежуточные состояния, напрямую контролировать качество предложений и избегать неоднозначности, присущей лингвистическим рассуждениям, что обеспечивает существенное улучшение результатов в задачах обнаружения, подсчета и геометрического восприятия. Может ли подобное выстраивание рассуждений на основе пространственных представлений стать принципиальным путем к созданию масштабируемых и универсальных систем визуального восприятия?


Визуальное мышление: Преодоление границ искусственного интеллекта

Несмотря на значительный прогресс в разработке мультимодальных моделей, задача надежного визуального рассуждения продолжает оставаться сложной. Современные системы, способные обрабатывать информацию из различных источников, таких как текст и изображения, часто демонстрируют неустойчивость при решении задач, требующих анализа сложных сцен и вывода логических заключений на основе визуальных данных. Особенно проблематичны сценарии, где требуется не просто распознавание объектов, а понимание их взаимосвязей, пространственного расположения и выполнение последовательности логических операций для ответа на поставленный вопрос. Неспособность к полноценному визуальному рассуждению ограничивает возможности применения искусственного интеллекта в областях, требующих анализа сложных визуальных ситуаций, таких как автономная навигация, робототехника и медицинская диагностика, подчеркивая необходимость дальнейших исследований в данной области.

Современные подходы к визуальному мышлению часто сталкиваются с трудностями при решении сложных, многоступенчатых задач, требующих понимания пространственных отношений и идентификации объектов. Исследования показывают, что модели испытывают затруднения не просто в распознавании отдельных элементов на изображении, но и в установлении связей между ними, а также в прогнозировании последствий изменений в пространственной конфигурации. Особенно сложны задачи, где необходимо учитывать не только видимые атрибуты объектов, но и их потенциальное взаимодействие, требующее построения логических цепочек и применения здравого смысла. Данное ограничение указывает на необходимость разработки новых архитектур и алгоритмов, способных к более глубокому и контекстуальному анализу визуальной информации, имитирующему человеческие способности к рассуждению.

В отличие от существующих моделей, полагающихся на абстрактное языковое рассуждение и допускающих ошибки в локализации объектов, люди используют структурированный визуальный анализ для последовательного уточнения внимания и точного определения нужного игрока.
В отличие от существующих моделей, полагающихся на абстрактное языковое рассуждение и допускающих ошибки в локализации объектов, люди используют структурированный визуальный анализ для последовательного уточнения внимания и точного определения нужного игрока.

Artemis: Разумный взгляд на проблему восприятия и стратегии

Artemis — это унифицированная платформа обучения с подкреплением, основанная на правилах, разработанная для обучения восприятию и выработке стратегий. Данный фреймворк объединяет модули восприятия и принятия решений в единую систему, что позволяет агенту одновременно изучать визуальную информацию и оптимизировать свои действия на ее основе. В отличие от традиционных подходов, Artemis обеспечивает структурированный подход к обучению, позволяя задавать явные правила и ограничения, что способствует повышению надежности и интерпретируемости принимаемых решений в сложных визуальных средах. Ключевым аспектом является возможность обучения агента непосредственно из визуальных данных без необходимости предварительной ручной разработки признаков или сложных моделей представления.

Фреймворк Artemis использует структурированное визуальное рассуждение для формирования логических выводов на основе пространственных и объектно-центрических представлений. Это достигается путем явного моделирования отношений между объектами и их позициями в пространстве, что позволяет системе не просто распознавать визуальные паттерны, но и понимать их контекст. Такой подход обеспечивает более надежные решения, поскольку система опирается на структурированные данные, а не на абстрактные признаки. Кроме того, объектно-центрическое представление упрощает интерпретацию процесса принятия решений, позволяя отслеживать, какие объекты и их взаимосвязи повлияли на конкретный выбор действия. В результате, система Artemis демонстрирует повышенную прозрачность и объяснимость своих действий.

В рамках Artemis используется система явных наград для оптимизации политики обучения с подкреплением, что позволяет эффективно решать проблему разреженных или отложенных сигналов во время работы в сложных визуальных средах. В отличие от подходов, полагающихся на неявные или сформированные награды, Artemis напрямую определяет желаемые действия через четко заданные функции вознаграждения. Это обеспечивает более стабильный процесс обучения, особенно в ситуациях, когда немедленная обратная связь отсутствует или ограничена. Использование явных наград позволяет агенту быстро идентифицировать и усиливать полезные действия, избегая застревания в локальных оптимумах и повышая общую эффективность обучения в динамичных визуальных окружениях. Такая реализация позволяет Artemis успешно функционировать даже при высокой сложности среды и ограниченности доступной информации.

Набор данных Artemis-RFT включает в себя задачи визуального связывания и обнаружения объектов, совместно обучая унифицированную систему восприятия, где фиолетовые рамки обозначают объекты для рассуждений, а зеленые - итоговый результат, который может одновременно служить и ключевым объектом для рассуждений.
Набор данных Artemis-RFT включает в себя задачи визуального связывания и обнаружения объектов, совместно обучая унифицированную систему восприятия, где фиолетовые рамки обозначают объекты для рассуждений, а зеленые — итоговый результат, который может одновременно служить и ключевым объектом для рассуждений.

Проверяемое обучение: Награда за логику и последовательность

В системе Artemis используется комбинированный подход к обучению с подкреплением, включающий как промежуточные, так и финальные награды. Промежуточные награды оценивают корректность каждого отдельного шага в процессе рассуждений, предоставляя сигнал обратной связи на каждом этапе. Это позволяет модели не только достигать конечной цели, но и осваивать логически верные шаги для её достижения. Финальные награды, в свою очередь, оценивают успешность достижения конечной цели, обеспечивая глобальную оптимизацию политики. Комбинация этих двух типов наград позволяет Artemis обеспечивать более полное и эффективное обучение, способствуя развитию надежных и объяснимых механизмов принятия решений.

Промежуточные награды в системе Artemis оценивают корректность каждого отдельного шага рассуждений, что позволяет повысить надежность и объяснимость принимаемых решений. В отличие от оценки только конечного результата, анализ промежуточных шагов позволяет выявить и исправить ошибки на ранних стадиях процесса рассуждения. Это достигается путем определения критериев, соответствующих правильности каждого шага, и присвоения награды в случае соответствия. Такой подход способствует формированию более устойчивой политики, так как модель учится не просто достигать цели, но и правильно аргументировать свои действия, что критически важно для задач, требующих прозрачности и обоснованности принятых решений.

Для обеспечения стабильности и повышения производительности обучения, Artemis использует оптимизацию групповой относительной политики (Group Relative Policy Optimization, GRPO). В GRPO политика оптимизируется не по отношению к абсолютным значениям вознаграждения, а относительно набора случайным образом выбранных траекторий. Это достигается путем вычисления преимущества каждой траектории относительно этого набора, что позволяет уменьшить дисперсию градиентов и избежать отклонений в процессе обучения. Фактически, GRPO способствует более устойчивой сходимости политики, особенно в сложных задачах, где абсолютные значения вознаграждения могут быть подвержены значительным колебаниям.

Фреймворк Artemis легко интегрируется со стандартными задачами компьютерного зрения, такими как обнаружение объектов и визуальное обоснование. Это достигается за счет использования общих слоев восприятия и адаптации системы вознаграждений к конкретным выходным данным этих задач. Например, при обнаружении объектов, промежуточные вознаграждения могут быть выданы за правильное выделение границ объектов, а конечное вознаграждение — за точное определение всех объектов на изображении. Аналогично, в задачах визуального обоснования, вознаграждения формируются на основе соответствия между визуальными признаками и текстовым описанием, обеспечивая эффективное обучение модели для понимания и интерпретации визуальной информации.

Сравнительный анализ показывает, что Artemis демонстрирует более точное визуальное обоснование ответов по сравнению с Perception-R1 и VLM-R1, выделяя релевантные области изображения (зеленым - истинное значение, фиолетовым - области рассуждения Artemis, красным - ответ Artemis, синим - Perception-R1, розовым - VLM-R1).
В случае 3 на наборе данных RefCOCO/+/g, система Artemis демонстрирует более точное визуальное обоснование ответов по сравнению с Perception-R1 и VLM-R1, выделяя релевантные области изображения (зеленым — истинное значение, фиолетовым — области рассуждения Artemis, красным — ответ Artemis, синим — Perception-R1, розовым — VLM-R1).

Практическая ценность: Преодолевая ограничения существующих систем

Исследования с использованием эталонного набора данных MATHGLANCE продемонстрировали способность Artemis успешно решать сложные математические задачи, представленные в визуальной форме. Модель не просто распознает цифры или символы, но и понимает логическую структуру задачи, представленную на изображении, что позволяет ей последовательно выполнять необходимые вычисления и находить верное решение. Этот успех указывает на способность Artemis интегрировать визуальную информацию с математическими знаниями, что открывает перспективы для разработки систем, способных решать задачи, требующие как зрительного восприятия, так и аналитического мышления, например, автоматическое решение задач по физике или геометрии, представленных в виде диаграмм и графиков. Успешное выполнение задач из MATHGLANCE подтверждает эффективность предложенного подхода к мультимодальному обучению и способность модели обобщать знания, полученные из текстовых и визуальных источников.

Исследования, проведенные на обширных наборах данных, таких как MS-COCO, RefCOCO/+/g и LLaVA-665k, демонстрируют существенный прогресс в возможностях визуального обоснования и логического мышления модели. В частности, при тестировании на наборе COCO2017, 3-миллиардная модель достигла показателя средней точности (mAP) в 31.0, что свидетельствует о ее способности эффективно сопоставлять визуальную информацию с текстовыми запросами и проводить сложные рассуждения на основе изображений. Данный результат подтверждает потенциал модели для решения задач, требующих понимания взаимосвязи между визуальным контентом и языком, открывая новые перспективы в области компьютерного зрения и обработки естественного языка.

Исследования показали, что модель Artemis превосходит существующие мультимодальные большие языковые модели, такие как Qwen2.5-VL, в задачах визуального понимания и рассуждений. В частности, Artemis достигла показателя в 81.4 на бенчмарке Pixmo-Count (Pixmoval), предназначенном для оценки способности модели к подсчету объектов на изображениях, и продемонстрировала точность в 78.3 на тесте LISA, оценивающем понимание инструкций, заданных на естественном языке и связанных с визуальным контентом. Важно отметить, что эти результаты были достигнуты в условиях zero-shot обучения, то есть без предварительной адаптации модели к конкретным наборам данных, что подчеркивает ее способность к обобщению и адаптации к новым задачам.

Сравнительный анализ показывает, что Artemis демонстрирует более точное понимание математических выражений и взаимосвязей на задачах MATHGLANCE по сравнению с Qwen2.5-VL, что подтверждается качественными результатами по визуальному обоснованию и идентификации математических связей (зеленый - эталон, голубой - Qwen2.5-VL, красный - ответ Artemis).
Сравнительный анализ показывает, что Artemis демонстрирует более точное понимание математических выражений и взаимосвязей на задачах MATHGLANCE по сравнению с Qwen2.5-VL, что подтверждается качественными результатами по визуальному обоснованию и идентификации математических связей (зеленый — эталон, голубой — Qwen2.5-VL, красный — ответ Artemis).

В статье описывается система Artemis, стремящаяся навести порядок в хаосе визуального восприятия, что вызывает легкую иронию. Авторы полагают, что структурированное визуальное рассуждение — ключ к успеху, а это лишь подтверждает старую истину: прежде чем строить сложные системы, стоит разобраться в основах. Как метко заметила Фэй-Фэй Ли: «Искусственный интеллект — это не магия, а математика». И в данном случае, математика визуального анализа, призванная обуздать непоследовательность и непредсказуемость мира, видимого машиной. Улучшение обобщающей способности, о котором говорится в статье, — это не революция, а закономерный результат попытки применить здравый смысл к алгоритмам.

Что дальше?

Представленный фреймворк Artemis, безусловно, добавляет ещё один уровень сложности в и без того непростые задачи обучения с подкреплением и визуального рассуждения. Улучшение обобщающей способности — это всегда хорошо, но стоит помнить, что каждая «революция» в этой области неизбежно порождает новый техдолг. Рано или поздно, найдётся задача, где структурированное визуальное рассуждение окажется излишним или, что вероятнее, потребует ещё более сложной структуры. Ведь если код выглядит идеально — значит, его ещё никто не деплоил в реальный мир.

Вопрос, который остаётся открытым, касается масштабируемости. Улучшение производительности на стандартных датасетах — это одно, а работа с данными, полученными в реальном времени и имеющими все присущие им несовершенства, — совсем другое. Неизбежно возникнет потребность в автоматизации процесса структурирования визуального рассуждения, иначе система превратится в дорогой способ усложнить существующие решения. К тому же, стоит задуматься о вычислительных затратах — всегда найдётся способ сделать элегантную теорию непрактичной.

В конечном итоге, настоящая проверка ждёт впереди — когда фреймворк столкнётся с задачами, для которых он не был изначально спроектирован. И тогда станет ясно, действительно ли Artemis — это шаг вперёд, или просто ещё одна ступенька на пути к бесконечному усложнению.


Оригинал статьи: https://arxiv.org/pdf/2512.01988.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-03 22:13