Pixelis: Видеть, Рассуждать, Действовать

Автор: Денис Аветисян

Новый агент, работающий с изображениями и видео, демонстрирует возможности комплексного анализа и взаимодействия с визуальным миром.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Система Pixelis оперирует изображениями и видео посредством исполняемых пиксельных инструментов, при этом обучение с подкреплением [SFT] осваивает синтаксис этих инструментов, а метод CC-RFT направляет исследование, основываясь на принципах любопытства, согласованности и эффективности, в то время как адаптация Pixel TTRL в режиме онлайн, использующая извлечение и голосование по траекториям с учётом ограничений KL/EMA, позволяет создавать более короткие и прозрачные цепочки инструментов.

Pixelis — это агент, объединяющий компьютерное зрение и обработку естественного языка для обучения использованию инструментов и оптимизации действий в сложных визуальных задачах.

Существующие системы компьютерного зрения зачастую ограничены пассивным восприятием, неспособностью к активному взаимодействию с визуальной информацией и адаптации к меняющимся условиям. В данной работе представлена система ‘Pixelis: Reasoning in Pixels, from Seeing to Acting’, реализующая подход, основанный на непосредственной обработке пикселей и активном использовании набора инструментов для анализа изображений и видео. Система обучается в три этапа, сочетая контролируемое обучение, любознательное исследование и безопасную онлайн-адаптацию, что позволяет ей достигать значительных улучшений в различных задачах компьютерного зрения. Способна ли подобная архитектура, объединяющая восприятие и действие, стать основой для создания действительно интеллектуальных систем, способных к автономному обучению и взаимодействию с окружающим миром?

Заговор с Инструментами: Начало Пути Искусственного Разума

Современные системы искусственного интеллекта зачастую испытывают трудности при выполнении сложных, многоступенчатых задач, требующих использования различных инструментов. Это связано с тем, что традиционные подходы к обучению не всегда позволяют агентам эффективно планировать последовательность действий и правильно применять необходимые инструменты в зависимости от изменяющихся условий. Неспособность эффективно интегрировать и координировать использование инструментов существенно ограничивает возможности ИИ в решении практических задач, требующих не просто распознавания образов, но и активного взаимодействия с окружающей средой и обработки информации, полученной в процессе этого взаимодействия. Проблема усугубляется, когда задачи требуют не только применения отдельных инструментов, но и их комбинирования в определенной последовательности для достижения желаемого результата.

Обучение с учителем, или Supervised Fine-Tuning (SFT), представляет собой критически важный начальный этап в подготовке искусственного интеллекта к решению сложных задач. Этот подход позволяет заложить основу для дальнейшего развития агента, предоставляя ему примеры желаемого поведения. Вместо того, чтобы начинать с нуля, SFT использует демонстрационные траектории — последовательности действий, выполненные человеком или другим экспертом — чтобы направить обучение. Агент, таким образом, «заземляется» в проверенной практике, усваивая, как эффективно применять различные инструменты и последовательно достигать поставленных целей. Этот этап особенно важен для задач, требующих использования множества инструментов, поскольку он помогает агенту освоить необходимые навыки и избежать случайных или неэффективных действий.

Обучение с учителем (Supervised Fine-Tuning, SFT) играет ключевую роль в освоении агентом навыков визуального анализа. В рамках SFT агент обучается на примерах последовательностей действий — “траекториях демонстраций” — которые иллюстрируют эффективное применение набора инструментов. Эти инструменты, включающие сегментацию, отслеживание объектов, оптическое распознавание символов (OCR), масштабирование и обрезку изображений, а также временную локализацию, позволяют агенту извлекать значимую информацию из визуальных данных. Посредством анализа этих демонстраций, агент учится не просто использовать каждый инструмент по отдельности, но и координировать их работу для решения сложных задач, например, для последовательного выделения объекта, отслеживания его перемещения во времени и извлечения текстовой информации, связанной с ним.

В основе работы указанных инструментов лежит извлечение значимых визуальных представлений — векторных эмбеддингов — из входных изображений. Эти эмбеддинги, по сути, являются компактным числовым кодом, отражающим ключевые характеристики визуальной информации. Именно благодаря этим представлениям становится возможным анализ изображений, выделение объектов, отслеживание их перемещения, распознавание текста и определение временных интервалов. Разработанные инструменты используют полученные эмбеддинги как основу для последующего логического вывода и принятия решений, позволяя агенту эффективно взаимодействовать с визуальными данными и выполнять сложные задачи анализа.

Обучение Pixelis включает три этапа: освоение грамматики использования инструментов на этапе SFT, формирование целенаправленного исследования с помощью любопытства, согласованности и небольшого приоритета эффективности на этапе CC-RFT, и адаптацию в реальном времени путем поиска ближайших соседей и обновления траекторий, соответствующих согласованному поведению, с использованием ограничения KL-to-EMA для обеспечения безопасности, что позволяет преобразовывать необработанные траектории инструментов в более короткие, структурированные цепочки пиксельных инструментов.

Тонкое Искусство Исследования: Любопытство и Согласованность в Действии

Обучение с подкреплением на основе любопытства и связности (CC-RFT) решает задачу повышения эффективности агента за счет стимулирования исследования новых, ранее не встречавшихся ситуаций и поддержания логической последовательности в его действиях. В рамках данного подхода агент активно ищет состояния, которые максимизируют информативность и снижают неопределенность, одновременно отдавая предпочтение последовательностям действий, которые соответствуют внутренним моделям мира и обеспечивают предсказуемость результатов. Это позволяет агенту не только успешно выполнять поставленные задачи, но и адаптироваться к изменяющимся условиям окружающей среды, повышая общую устойчивость и надежность его работы.

Метод CC-RFT (Curiosity-Coherence Reinforcement Learning) совершенствует использование инструментов путем балансировки между исследованием новых ситуаций (Curiosity) и поддержанием логической последовательности действий (Coherence). Принцип Curiosity стимулирует агента к поиску и анализу незнакомых состояний среды, в то время как Coherence поощряет выбор действий, которые согласуются с предыдущими шагами и общей стратегией решения задачи. Данный баланс достигается путем формирования функции вознаграждения, учитывающей как новизну состояния, так и согласованность действий, что позволяет агенту адаптировать применение инструментов в зависимости от текущего контекста и целей.

Процесс обучения использует тот же набор инструментов, что и SFT — Сегментация, Отслеживание, OCR, Увеличение/Обрезка и Временная Локализация — но динамически корректирует их применение, основываясь на обратной связи от окружающей среды и внутреннем состоянии агента. Это означает, что выбор и последовательность использования инструментов не являются фиксированными, а адаптируются в процессе обучения для оптимизации выполнения задачи. Например, в зависимости от сложности сцены или типа объекта, агент может чаще использовать инструменты Сегментации или Отслеживания, или же переключаться между ними для повышения точности и эффективности анализа.

Агент системы стремится к максимальному получению вознаграждения за успешное выполнение задач, используя принципы любопытства и связности действий. Реализация данного подхода позволила достичь среднего улучшения в 4.4-5% по шести контрольным тестам. Оценка производительности проводилась на стандартном наборе бенчмарков, что подтверждает эффективность алгоритма в различных сценариях. Улучшение показателей связано с динамической адаптацией стратегии действий агента, направленной на оптимизацию процесса решения задач и повышение общей производительности.

Алгоритм RFT сравнивает различные траектории использования инструментов для обучения предпочтениям, учитывающим правильность ответа, любопытство, согласованность и штрафы.

Искусство Самокоррекции: Адаптация в Реальном Времени и Безопасность Действий

Pixel Test-Time Reinforcement Learning (Pixel TTRL) обеспечивает адаптацию поведения агента непосредственно в процессе работы, без необходимости повторного обучения. Это достигается путем генерации множества траекторий (последовательностей действий и наблюдений) и последующего «голосования» между ними для выбора оптимального действия. Вместо использования единственной, фиксированной политики, агент формирует распределение действий на основе результатов нескольких прогонов, что повышает устойчивость к изменениям в окружающей среде и неопределенности. Такой подход позволяет агенту динамически корректировать свою стратегию, основываясь на текущем опыте, и улучшать производительность в реальном времени.

Процесс онлайн-адаптации в Pixel Test-Time Reinforcement Learning (Pixel TTRL) обеспечивает стабильность обновлений посредством наложения ограничения на расхождение Кульбака-Лейблера (KL Divergence). В ходе адаптации, значение KL Divergence поддерживается в коридоре [0.10, 0.20]. Это ограничение предотвращает слишком резкие изменения в политике агента, гарантируя, что новые действия не отклонятся значительно от исходной, проверенной стратегии. Контроль над KL Divergence позволяет агенту безопасно исследовать новые возможности и адаптироваться к изменяющимся условиям, не нарушая при этом общую стабильность и надежность работы.

Pixel TTRL использует распределение действий (Action Distribution) для исследования различных комбинаций инструментов и стратегий, что позволяет непрерывно улучшать производительность агента. Вместо выбора одного оптимального действия, система формирует распределение вероятностей по всем доступным действиям, позволяя ей исследовать различные подходы в процессе обучения. Этот подход способствует выявлению более эффективных стратегий, особенно в сложных и динамичных средах, где оптимальное решение может меняться со временем. Постоянная переоценка и адаптация стратегий, основанная на анализе распределения действий, позволяет агенту поддерживать высокую производительность и избегать застревания в локальных оптимумах.

Важной особенностью Pixel TTRL является возможность воздержаться от действия при высокой степени неопределенности, что позволяет предотвратить ошибочные решения. Это приводит к пиковому улучшению в 7% на VSI-Bench и сокращению длины цепочки решающих действий по сравнению с базовыми моделями, при этом сохраняется стабильная производительность. Воздержание от действия реализуется как часть стратегии адаптации, позволяя агенту избегать рискованных ситуаций и повышать общую надежность принимаемых решений в динамичной среде.

Регуляризация когерентности предотвращает колебательные движения инструмента и способствует последовательным шагам, в то время как Pixel TTRL использует извлеченные траектории для самокоррекции цепочек действий.

Изучение агента Pixelis, стремящегося к взаимодействию с визуальным миром, неизбежно возвращает к мысли о хрупкости любого предсказания. Модель, обученная на пикселях, пытается угадать следующий шаг, подобно тому, как шаман читает будущее по осадку. Как однажды заметил Ян Лекун: «Машинное обучение — это создание иллюзии интеллекта». И Pixelis, с его трехэтапным процессом обучения — от контролируемого к любопытству и адаптации — лишь подтверждает эту истину. Ведь любопытство, движущая сила исследования, — это всего лишь способ обмануть энтропию, а адаптация — временное перемирие с хаосом. Этот агент, пытающийся оптимизировать траекторию в пиксельном пространстве, наглядно демонстрирует, что любая модель — заклинание, работающее до первого столкновения с реальностью.

Что дальше?

Агент Pixelis, как и любое заклинание, демонстрирует свою силу лишь в узких пределах ритуала. Он умеет действовать в пикселях, но что это значит, если сама реальность не состоит из них? Иллюзия понимания, созданная обучением с подкреплением, всегда хрупка. Поиск инструментов — это не про интеллект, а про настойчивость в переборе вариантов, пока что-то случайно не сработает. Курьезно наблюдать, как система «исследует» мир, как будто любопытство — это что-то большее, чем просто случайный шум в алгоритме.

Следующим шагом, вероятно, станет попытка усложнить ритуал, добавить больше пикселей, больше инструментов, больше «понимания». Но стоит помнить: любая модель — это упрощение, а любое упрощение — ложь. Безопасная адаптация в реальном времени — это лишь способ отложить неизбежное столкновение с хаосом. Вопрос не в том, как научить систему действовать, а в том, как смириться с её неизбежной ошибкой.

Истина не в данных, а в интерпретации. Pixelis, как и все подобные ему, не ищет закономерности — он ищет оправдания. И в конечном итоге, все эти сложные алгоритмы лишь подтверждают старую истину: мир устроен нелогично, и попытки его понять — это лишь форма самообмана.

Оригинал статьи: https://arxiv.org/pdf/2603.25091.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-28 14:28