За пределами текста: новый взгляд на навыки агентов

Автор: Денис Аветисян


Исследование показывает, что для решения задач, связанных с визуальным восприятием, агентам необходимы навыки, выходящие за рамки обработки текста.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Переход от повторного использования текста к визуальным навыкам демонстрирует, что прямое решение визуальных задач, в отличие от использования лишь текстовых правил, позволяет учитывать пространственные закономерности, делая визуальный протокол явным, повторно используемым и надёжно обоснованным.
Переход от повторного использования текста к визуальным навыкам демонстрирует, что прямое решение визуальных задач, в отличие от использования лишь текстовых правил, позволяет учитывать пространственные закономерности, делая визуальный протокол явным, повторно используемым и надёжно обоснованным.

Предлагается новый подход к развитию навыков агентов, объединяющий текстовую логику с использованием переиспользуемых визуальных знаний для улучшения пространственного мышления и общих возможностей.

Несмотря на прогресс в создании многофункциональных агентов, существующие подходы к накоплению опыта часто ограничиваются текстовыми активами, что создает узкое место для задач, требующих визуального восприятия. В работе ‘Agent Skills Should Go Beyond Text: The Case for Visual Skills’ предлагается новый подход к формированию навыков агентов, объединяющий текстовую логику с использованием визуальных приоритетов для повышения эффективности в задачах, связанных с визуальным окружением. Предложенная парадигма навыков позволяет агентам не только понимать, что делать, но и где искать информацию и как интерпретировать визуальные данные. Способны ли мультимодальные навыки стать ключевым компонентом для создания более гибких и эффективных агентов будущего?


Текстовое Ограничение: Когда Символы Заслоняют Реальность

Современные подходы к обучению навыкам часто чрезмерно полагаются на текстовые представления информации, что создает так называемое “текстовое узкое место”. Этот феномен ограничивает способность систем к сложному рассуждению, поскольку перекодирование знаний в текстовый формат неизбежно приводит к потере нюансов и контекста, особенно при работе с многомерными данными. По сути, системы вынуждены сначала «переводить» реальный мир в последовательность символов, а затем уже пытаться извлечь из неё полезные знания, что существенно замедляет процесс обучения и снижает эффективность решения задач, требующих тонкого понимания и адаптации к меняющимся условиям. Такое ограничение особенно заметно в задачах, где важна не только логика, но и визуальное восприятие, пространственное мышление и способность к интуитивным решениям.

Традиционные методы обучения, опирающиеся преимущественно на текстовые данные, испытывают значительные трудности при кодировании и использовании пространственной информации, необходимой для выполнения широкого спектра задач в реальном мире. Пространственное мышление, включающее понимание взаимосвязей между объектами в трехмерном пространстве, играет ключевую роль в навигации, сборке, планировании и многих других областях. Однако, когда информация о пространстве представлена лишь в виде текста, происходит потеря важных деталей и взаимосвязей, что ограничивает способность агентов эффективно решать задачи, требующие визуального понимания и манипулирования объектами. Это особенно заметно в ситуациях, где требуется построение ментальных моделей окружения или предсказание траекторий движения, поскольку текстовое описание не способно передать всю полноту пространственной картины, необходимой для принятия оптимальных решений.

Ограничения традиционных методов обучения, основанных преимущественно на текстовых данных, особенно заметны в задачах, требующих визуального восприятия и пространственной ориентации. Агенты, обученные преимущественно на текстах, испытывают трудности при анализе изображений, понимании взаимосвязей между объектами в пространстве и выполнении действий, требующих манипуляций с виртуальными или физическими объектами. Это проявляется в неспособности эффективно решать задачи, связанные с навигацией, сборкой, распознаванием образов и другими видами деятельности, где визуальная информация и пространственное мышление играют ключевую роль. Следовательно, для достижения более высокого уровня интеллекта и адаптивности необходимо разрабатывать новые подходы к обучению, которые уделяют больше внимания визуальному и пространственному компонентам.

Визуальные навыки структурированы по решаемым задачам: статические навыки обеспечивают повторное использование пространственных конвенций, динамические - позволяют изменять изображение в процессе выполнения задачи (например, для критики слайдов или планирования маршрута ARC), а смешанные - поддерживают непосредственную связь между этапами рассуждений и визуальными данными.
Визуальные навыки структурированы по решаемым задачам: статические навыки обеспечивают повторное использование пространственных конвенций, динамические — позволяют изменять изображение в процессе выполнения задачи (например, для критики слайдов или планирования маршрута ARC), а смешанные — поддерживают непосредственную связь между этапами рассуждений и визуальными данными.

Визуальные Навыки: Новая Парадигма Многомодального Рассуждения

Визуальные навыки (Visual Skills) объединяют “Текстуальную Логику”, определяющую цели задачи, с повторно используемыми “Визуальными Априорными Знаниями” (Visual Priors), кодирующими пространственные знания. Текстуальная логика предоставляет инструкции высокого уровня, описывающие желаемый результат, в то время как визуальные априорные знания представляют собой предварительно обученные представления о пространственных отношениях, объектах и их свойствах. Данное сочетание позволяет агентам использовать существующие знания о мире для более эффективного решения задач, требующих понимания и манипулирования визуальной информацией, избегая необходимости заново изучать базовые пространственные концепции для каждой новой задачи. Визуальные априорные знания могут включать в себя информацию о геометрии сцены, физических свойствах объектов, а также о типичных пространственных взаимосвязях между ними.

Центральный протокол связывания (Binding Protocol) определяет механизм совместного сопоставления текстовых инструкций и визуальных ссылок, обеспечивая их согласованное выполнение. Данный протокол функционирует как посредник, который преобразует лингвистические указания в конкретные действия в визуальном пространстве. Процесс включает в себя идентификацию объектов, указанных в тексте, их локализацию на визуальном входе и последующее применение логических правил, заданных инструкцией, к этим объектам. В результате формируется единый, целостный навык, позволяющий агенту эффективно взаимодействовать с визуальной средой на основе текстовых команд.

Данная архитектура позволяет агентам выполнять задачи, требующие сочетания логического мышления и визуального восприятия, преодолевая ограничения подходов, основанных исключительно на текстовых данных. Традиционные системы, полагающиеся только на текстовые инструкции, испытывают трудности при обработке задач, связанных с пространственным пониманием или требующих анализа визуальной информации. Интеграция визуальных навыков с логическими рассуждениями позволяет агентам эффективно решать сложные задачи, такие как навигация в пространстве, манипулирование объектами и распознавание визуальных паттернов, что значительно расширяет спектр решаемых задач и повышает общую эффективность агента.

AutoVisualSkill позволяет создавать повторно используемые визуальные навыки, анализируя задачи, генерируя визуальные предположения или ссылки на исходные данные при необходимости и объединяя их с текстовой логикой и манифестами привязки для переноса между различными экземплярами.
AutoVisualSkill позволяет создавать повторно используемые визуальные навыки, анализируя задачи, генерируя визуальные предположения или ссылки на исходные данные при необходимости и объединяя их с текстовой логикой и манифестами привязки для переноса между различными экземплярами.

Практическое Применение: Подтверждение Эффективности

Навыки визуального восприятия демонстрируют высокую эффективность в задачах “GUI Grounding”, заключающихся в точном определении местоположения интерактивных элементов на скриншотах. Достигается это за счет использования визуальных приоритетов, позволяющих модели опираться на ранее полученные знания о внешнем виде и расположении элементов интерфейса. Такой подход позволяет значительно повысить точность локализации, определяя не только наличие, но и границы интерактивных объектов на изображении.

Навыки визуального восприятия демонстрируют высокую эффективность в задачах плотного подсчета объектов, используя пространственное рассуждение для определения количества объектов в сложных сценах. Данный подход позволяет точно оценивать количество объектов даже при высокой плотности и перекрытиях, что подтверждается увеличением точности на 0.171 при точном подсчете и на 0.722 при подсчете с погрешностью в пределах одного объекта. Использование визуальных навыков в данной задаче обеспечивает более надежные результаты по сравнению с подходами, основанными исключительно на текстовых данных.

Экспериментальные результаты демонстрируют, что использование визуальных приоритетов при обучении моделей значительно повышает их производительность по сравнению с подходами, основанными исключительно на текстовых данных. В задачах определения местоположения интерактивных элементов интерфейса (GUI Grounding) наблюдается улучшение до 17.1%, а в задачах плотного подсчета объектов — до 72.2% по метрике точности. Данные улучшения свидетельствуют о высокой эффективности использования визуальной информации для повышения надежности и точности моделей в задачах, требующих пространственного понимания и взаимодействия с визуальным контентом.

Результаты экспериментов демонстрируют количественное улучшение метрик при использовании визуальных навыков. В задачах GUI Grounding наблюдается увеличение Mean IoU на 0.054 и Point-in-Box Accuracy на 0.028. В задачах Dense Object Counting точность подсчета увеличилась на 0.171 при оценке по критерию точного совпадения и на 0.722 при оценке точности в пределах одного объекта (within-1 accuracy). Данные показатели подтверждают эффективность применения визуальных навыков для повышения точности и надежности систем, работающих с визуальной информацией.

Использование визуальных подсказок и динамических трассировок значительно улучшает точность определения границ объектов на графическом интерфейсе (IoU) и предсказание количества объектов при их плотном расположении.
Использование визуальных подсказок и динамических трассировок значительно улучшает точность определения границ объектов на графическом интерфейсе (IoU) и предсказание количества объектов при их плотном расположении.

AutoVisualSkill: Автоматизация Создания и Адаптации Навыков

Автоматизированный конвейер AutoVisualSkill предназначен для автоматической генерации визуальных навыков (Visual Skills) на основе заданных пользователем целей и мультимодального контекста. Конвейер принимает в качестве входных данных как текстовые инструкции, описывающие желаемое поведение, так и информацию, полученную из различных сенсорных модальностей (например, изображение, звук). Это позволяет системе самостоятельно создавать функциональные навыки, необходимые для выполнения поставленной задачи, без непосредственного участия человека в процессе их разработки и кодирования. Автоматическая генерация навыков осуществляется путем анализа входных данных и формирования последовательности действий, необходимых для достижения цели, с учетом доступного контекста.

Автоматическое создание функциональных навыков в AutoVisualSkill осуществляется за счет использования двух ключевых компонентов: ‘Текстуальной Логики’ и ‘Протокола Связывания’. ‘Текстуальная Логика’ позволяет системе понимать цели пользователя, сформулированные в текстовом виде, и преобразовывать их в логические инструкции. ‘Протокол Связывания’ обеспечивает динамическое соединение этих инструкций с соответствующими мультимодальными данными и доступными функциями, что позволяет создавать работоспособные навыки без необходимости ручного программирования или определения правил. Этот подход позволяет системе самостоятельно адаптироваться к различным задачам и контекстам, формируя необходимые навыки на основе анализа входных данных.

Автоматизированный подход, реализованный в AutoVisualSkill, обеспечивает быстрое развертывание и адаптацию визуальных навыков для мультимодальных агентов. В отличие от традиционных методов, требующих ручного создания и настройки каждого навыка, данная система позволяет динамически генерировать и модифицировать навыки на основе текущего контекста и целей пользователя. Это значительно сокращает время, необходимое для расширения функциональности агента и позволяет ему оперативно реагировать на изменяющиеся условия и задачи, повышая его общую эффективность и применимость в различных сценариях.

Динамические навыки визуально отображают промежуточные состояния на изображении задачи, обеспечивая отслеживаемость прогресса и возможность повторного использования в процессе рассуждений.
Динамические навыки визуально отображают промежуточные состояния на изображении задачи, обеспечивая отслеживаемость прогресса и возможность повторного использования в процессе рассуждений.

К Адаптивному Интеллекту: Динамические Априорные Знания и За Его Пределами

Динамический визуальный приоритет представляет собой ключевой механизм, позволяющий интеллектуальным системам адаптироваться к постоянно меняющимся условиям окружающей среды. В отличие от статических моделей, этот подход предполагает отслеживание объектов и взаимосвязей между ними в режиме реального времени. Это достигается за счет непрерывного обновления внутреннего представления мира, что позволяет системе быстро реагировать на изменения, такие как появление новых объектов, изменение их положения или установление новых взаимосвязей. Благодаря этому, система способна не просто распознавать объекты, но и понимать их контекст и динамику, что критически важно для успешного выполнения задач в сложных и непредсказуемых условиях. По сути, динамический визуальный приоритет позволяет системе «видеть» мир не как набор отдельных снимков, а как непрерывный поток информации, что значительно повышает ее адаптивность и эффективность.

Визуальная рабочая память играет ключевую роль в обеспечении адаптивности агентов, позволяя им не просто воспринимать окружающую среду, но и активно удерживать и манипулировать визуальной информацией в процессе рассуждений. Этот механизм позволяет агенту сохранять представление об объектах и их взаимосвязях, даже когда они временно не видны, что критически важно для решения сложных задач, требующих планирования и прогнозирования. По сути, визуальная рабочая память действует как «цифровая черновик», где агент может мысленно моделировать различные сценарии и выбирать оптимальные действия, опираясь на ранее воспринятую информацию и динамически обновляя ее в соответствии с текущей ситуацией. Благодаря этому, агент способен эффективно адаптироваться к меняющимся условиям и демонстрировать более разумное и целенаправленное поведение.

Сочетание динамических априорных знаний и визуальной рабочей памяти открывает новые возможности для создания интеллектуальных агентов, способных к сложному и адаптивному поведению в реальных условиях. Такой подход позволяет агентам не просто реагировать на текущую ситуацию, но и предвидеть возможные изменения, основываясь на отслеживании объектов и их взаимосвязей во времени. Вместо жесткой запрограммированности, агенты, использующие данный механизм, способны динамически корректировать свои стратегии, обучаясь на опыте и адаптируясь к непредсказуемости окружающего мира. Это особенно важно для задач, требующих планирования и принятия решений в сложных, меняющихся средах, таких как автономная навигация, робототехника и интерактивные системы искусственного интеллекта.

Чередование визуальных навыков позволяет сохранять упорядоченные связи между текстовыми и визуальными доказательствами в обучающих материалах, документации и видео.
Чередование визуальных навыков позволяет сохранять упорядоченные связи между текстовыми и визуальными доказательствами в обучающих материалах, документации и видео.

Исследование демонстрирует, что современные агенты, ограниченные лишь текстовой логикой, сталкиваются с трудностями в задачах, требующих пространственного мышления. Авторы предлагают использовать визуальные навыки, как некий дополнительный слой понимания, позволяющий обойти текстовое «бутылочное горлышко». Это напоминает о том, что данные — не просто символы, а отголоски реальности, и чтобы понять их, необходимо учитывать все доступные сенсорные каналы. Как однажды заметил Джеффри Хинтон: «Чем больше мы учимся, тем больше понимаем, что не знаем». И в данном случае, это означает, что для создания действительно разумных агентов, необходимо выходить за рамки привычной текстовой парадигмы и осваивать новые способы восприятия мира.

Что дальше?

Предложенный подход, безусловно, расширяет границы парадигмы навыков агентов, но не стоит забывать: данные — это не истина, а компромисс между багом и Excel. Визуальные приори — это хорошо, но кто-нибудь посчитал, сколько сил уйдёт на нормализацию этих самых «приоров»? Всё, что не нормализовано, всё ещё дышит, и рано или поздно начнёт влиять на результаты. Пространственное мышление — штука сложная, и перенос логики из текста в визуальное пространство — это не просто перевод слов, а настоящая алхимия эпохи API.

Следующим шагом видится не просто увеличение объёма визуальных данных, а разработка методов, позволяющих агентам учиться визуальным приори, а не полагаться на заранее заданные. Иначе мы получим просто более изощрённый способ заставить машину повторять наши собственные ошибки. Пока что, агент, умеющий лгать последовательно, выглядит более надёжным, чем тот, кто безукоризненно следует устаревшим визуальным шаблонам.

В конечном счёте, вопрос не в том, насколько хорошо агент видит, а в том, насколько хорошо он умеет сомневаться в увиденном. И, конечно, в том, насколько хорошо дата-инженеры успевают чинить то, что сломалось после первого продакшена. Данные — это не цифры, а шёпот хаоса, и их можно уговорить, но никогда не подчинить.


Оригинал статьи: https://arxiv.org/pdf/2606.01414.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-06-03 02:08