Лабиринт Рассуждений: Графовый Поиск в ARC-AGI-3

Автор: Денис Аветисян

Новый подход к исследованию пространства состояний позволяет искусственному интеллекту более эффективно решать сложные интерактивные задачи.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

В ходе исследования сравнивалась эффективность четырёх методов решения задач в динамической среде: случайного агента, случайного агента с сегментацией кадров, случайного агента с сегментацией и приоритезацией новых действий, и разработанного метода исследования графа, при этом медианные значения успешности по пяти повторным экспериментам отображались на логарифмической шкале с указанием минимального и максимального разброса, а полный объём оценки использовался для построения графика метода исследования графа, в то время как промежуточные варианты отображались только до 10 000 шагов симуляции.

В статье представлена методика графового поиска, превосходящая случайный поиск и подходы на основе больших языковых моделей в решении задач ARC-AGI-3.

Несмотря на значительный прогресс в области искусственного интеллекта, задачи интерактивного рассуждения, требующие активного исследования среды и выявления скрытых правил, остаются сложной проблемой. В работе ‘Graph-Based Exploration for ARC-AGI-3 Interactive Reasoning Tasks’ представлен метод, основанный на построении графа состояний, для решения подобных задач на бенчмарке ARC-AGI-3, где агенты должны осваивать механику игры через ограниченные взаимодействия. Показано, что систематическое исследование пространства состояний с использованием графовой структуры позволяет превзойти существующие LLM-агенты и случайный поиск, демонстрируя высокую эффективность структурированного подхода. Может ли данная стратегия стать ключевым элементом в создании более надежных и адаптивных систем искусственного интеллекта, способных эффективно функционировать в условиях неполной информации и разреженных вознаграждений?

Искусственный интеллект: Между мечтой и техническим долгом

Современные системы искусственного интеллекта, демонстрирующие впечатляющие результаты в узкоспециализированных задачах, сталкиваются с серьезными трудностями при реализации общего, гибкого интеллекта. Этот недостаток ярко проявляется в тестах, таких как ARC-AGI-3, где требуется не просто выполнение заученной программы, а способность к адаптации и решению новых, незнакомых задач. В отличие от человека, способного легко переносить знания и навыки из одной области в другую, существующие алгоритмы часто демонстрируют хрупкость и неспособность к обобщению, что указывает на фундаментальные ограничения в текущих подходах к созданию действительно интеллектуальных машин. Несмотря на успехи в распознавании образов или обработке естественного языка, способность к рассуждению, планированию и абстрактному мышлению, свойственная человеческому интеллекту, пока остается недостижимой для современных ИИ.

Существенная проблема в развитии искусственного интеллекта общего назначения заключается в неэффективном исследовании сред, где вознаграждение за действия крайне редко. Когда система сталкивается с задачами, где положительный результат достигается лишь после длительной последовательности действий, стандартные алгоритмы обучения часто оказываются неспособными обнаружить оптимальную стратегию. Это происходит из-за того, что алгоритм не получает достаточного сигнала для оценки полезности различных действий, и, следовательно, не может эффективно сосредоточиться на перспективных направлениях поиска. В результате, система может застрять в бесплодных попытках, не находя решения даже в относительно простых задачах, требующих планирования и последовательных действий для достижения цели.

Существующие методы искусственного интеллекта часто сталкиваются с трудностями из-за ограниченных возможностей систематического отслеживания пространства состояний и расстановки приоритетов в выборе релевантных действий. Это проявляется в неспособности эффективно исследовать сложные среды, особенно при разреженном вознаграждении, когда полезные сигналы редки. Вместо комплексного анализа, алгоритмы зачастую полагаются на упрощенные эвристики или случайный поиск, что существенно ограничивает их способность к адаптации и обучению в новых, незнакомых ситуациях. Ограниченность в отслеживании всех возможных состояний и приоритезации действий приводит к тому, что потенциально полезные стратегии остаются незамеченными, а алгоритм застревает в локальных оптимумах, не достигая оптимального решения.

Обучение с подкреплением на основе моделей: Перспективный путь

Обучение с подкреплением, основанное на моделях (MBRL), представляет собой подход, в котором агент изучает модель окружающей среды, предсказывающую последствия действий. В отличие от методов, непосредственно изучающих политику, MBRL позволяет агенту планировать, симулируя будущие состояния и оценивая потенциальные награды. Это обеспечивает более эффективное принятие решений и сокращает количество взаимодействий с реальной средой, необходимых для обучения. Модель среды может быть представлена различными способами, включая нейронные сети, и используется для прогнозирования следующего состояния и вознаграждения после выполнения конкретного действия в текущем состоянии. Такой подход позволяет агенту «представлять» себе последствия своих действий, что особенно полезно в средах с высокой стоимостью взаимодействия или длительными временными задержками между действиями и наградами.

Алгоритмы, такие как MuZero и Dreamer, демонстрируют перспективные результаты за счет комбинирования обученных моделей динамики среды с алгоритмами поиска, позволяя планировать действия на основе предсказаний. Однако, в сложных сценариях с редким вознаграждением (sparse rewards) эти алгоритмы сталкиваются с трудностями. Проблема заключается в том, что при редком получении сигнала вознаграждения, алгоритму сложно определить, какие действия привели к положительному результату, и эффективно строить долгосрочные планы. Это приводит к снижению скорости обучения и ухудшению общей производительности в задачах, где положительное подкрепление встречается нечасто.

Недавние усовершенствования в области обучения с подкреплением на основе моделей, такие как алгоритмы EfficientZero и Axiom, демонстрируют повышение эффективности использования данных и общую производительность по сравнению с предыдущими подходами. EfficientZero оптимизирует процесс планирования за счет уменьшения вычислительной нагрузки, в то время как Axiom использует более эффективное представление знаний о мире. Однако, несмотря на эти улучшения, оба алгоритма по-прежнему сильно зависят от стратегий эффективного исследования среды для успешного обучения, особенно в задачах со сложными и редкими сигналами вознаграждения. Недостаточная или неэффективная разведка может привести к застреванию в локальных оптимумах или к неспособности обнаружить важные области пространства состояний.

Постепенное добавление компонентов метода к случайному агенту улучшает его способность решать задачи как в публичных, так и в приватных играх, приближаясь по эффективности к базовому решению, основанному на LLM+DSL, что подтверждается медианными результатами по 5 запускам и оценкой официального соревнования.

Графоисследование: Систематический подход к разведке

Метод Graph-Based Exploration использует Level Graph Explorer для поддержания направленного графа, представляющего исследованные состояния среды. Каждое состояние в графе является узлом, а переходы между состояниями, вызванные действиями агента, представлены направленными ребрами. Эта структура данных позволяет систематически отслеживать посещенные состояния, избегать повторного исследования одних и тех же областей и эффективно строить карту среды. Применение графового представления обеспечивает возможность анализа связей между состояниями и оптимизации процесса исследования, особенно в сложных и слабо вознаграждаемых средах.

Процесс извлечения визуальных признаков осуществляется посредством Frame Processor, который анализирует текущий кадр и выделяет ключевые элементы изображения, необходимые для принятия решений. Параллельно, механизм Action Prioritization определяет наиболее релевантные действия в данной игровой ситуации, основываясь на извлеченных визуальных признаках. Этот подход позволяет агенту фокусироваться на потенциально полезных действиях, избегая неэффективного перебора всех возможных вариантов и существенно ускоряя процесс исследования среды. Приоритезация действий осуществляется на основе оценки значимости каждого действия для достижения поставленной цели, что обеспечивает более целенаправленное и эффективное исследование игрового пространства.

Предложенный метод позволяет избежать избыточного исследования среды и ускоряет обучение в условиях разреженных вознаграждений. В ходе тестирования на закрытых игровых уровнях, наша система продемонстрировала медианный результат в 16 успешно пройденных уровней за 8-часовой период работы. На публичных игровых уровнях медиана составила 14 пройденных уровней. Для сравнения, базовые методы, такие как Random Agent и DSL + LLM, показали результат в 6 решенных уровней на закрытых тестовых играх. Данные результаты позволили занять 3-е место в официальной ARC-AGI-3 оценке по количеству пройденных уровней, при ограничении в 96000 шагов на игру и 4000 шагов на игру для сравнения с LLM базой.

В официальной оценке ARC-AGI-3, разработанный метод занял 3-е место по количеству решенных уровней. Оценка проводилась при общем ограничении в 96000 шагов на игру и лимите взаимодействий в 4000 шагов на игру, что позволяло проводить сравнение с базовым уровнем LLM. Данные показатели обеспечили конкурентоспособную производительность в условиях строгих ограничений по вычислительным ресурсам и времени выполнения.

Взгляд за пределы ARC-AGI-3: К общему искусственному интеллекту

Это исследование демонстрирует, что метод графоисследований — важный шаг к созданию искусственного интеллекта, обладающего общим интеллектом. Преодолевая трудности, связанные с редким вознаграждением и сложностью пространства состояний, данный подход позволяет агентам систематически исследовать окружающую среду и извлекать знания даже в ситуациях, когда обратная связь ограничена или отсутствует. В отличие от систем, полагающихся на огромные объемы размеченных данных, графоисследования акцентируют внимание на активном обучении через взаимодействие, позволяя агентам самостоятельно формировать понимание мира и эффективно решать сложные задачи. Эта способность к самообучению и адаптации к новым условиям — ключевая характеристика человеческого интеллекта, открывающая перспективы для создания ИИ, способного решать широкий спектр проблем в различных динамичных средах.

Исследование показывает, что систематическое исследование окружающей среды и извлечение знаний из взаимодействия с ней, лежащее в основе предложенного метода, удивительно созвучно фундаментальным принципам человеческого интеллекта и решения проблем. Вместо слепого перебора вариантов, подобный подход предполагает построение внутренней модели мира, основанной на опыте, что позволяет агенту прогнозировать последствия своих действий и адаптироваться к новым ситуациям. Это имитирует когнитивные процессы, такие как планирование, абстрагирование и причинно-следственное мышление, которые являются ключевыми для успешного решения сложных задач и обучения на протяжении всей жизни. По сути, метод предлагает вычислительную модель, отражающую способность человека к целенаправленному исследованию, активному обучению и гибкой адаптации, что открывает перспективы для создания искусственного интеллекта, способного к более эффективному и интуитивному взаимодействию с миром.

Разработанная схема не ограничивается решением задач в интерактивных бенчмарках, представляя собой перспективный путь к созданию искусственного интеллекта, способного эффективно функционировать в более широком спектре сложных и динамичных сред. В отличие от систем, заточенных под конкретные задачи, данная методология демонстрирует потенциал адаптации к различным условиям, что позволяет агентам не просто реагировать на текущую ситуацию, но и предвидеть изменения, планировать действия и учиться на опыте. Это открывает возможности для применения в таких областях, как робототехника, автономные системы управления и моделирование сложных процессов, где требуется гибкость и способность к обучению в реальном времени. По сути, речь идет о создании интеллектуальных систем, способных к самообучению и адаптации, что является ключевым шагом на пути к достижению общего искусственного интеллекта.

Исследование пространства состояний, представленное в данной работе, неизбежно напоминает о сложности любой системы. Авторы предлагают графовый подход к навигации, демонстрирующий превосходство над случайным поиском и даже над решениями, основанными на больших языковых моделях. Этот подход, хоть и эффективен в контексте ARC-AGI-3, лишь подтверждает старую истину: элегантная теория сталкивается с жестокой реальностью ограниченных ресурсов и непредсказуемого поведения. Клод Шеннон однажды заметил: «Теория коммуникации — это всего лишь способ передать информацию, но информация, в свою очередь, всегда содержит шум». Подобно этому, любой алгоритм исследования пространства состояний, даже самый изощренный, неизбежно столкнется с «шумом» неполной информации и неопределенностью, присущей интерактивным задачам рассуждения. В конечном итоге, задача состоит не в создании идеального исследователя, а в управлении неизбежным хаосом.

Что дальше?

Представленный подход к исследованию пространства состояний, безусловно, демонстрирует превосходство над хаотичным брожением и наивными попытками «самообучения» на основе больших языковых моделей. Однако, стоит помнить: каждая «революционная» технология завтра станет техдолгом. Успех на ARC-AGI-3 — это лишь первый шаг, и реальные задачи интерактивного рассуждения неизбежно обнаружат узкие места в масштабируемости и обобщающей способности предложенного графового метода. В конце концов, если баг воспроизводится — значит, у нас стабильная система, а не универсальное решение.

Основным вопросом остаётся проблема разреженности вознаграждений. Предложенный метод смягчает её, но не устраняет. В более сложных сценариях потребуется разработка более изощрённых стратегий исследования, возможно, с использованием механизмов внутренней мотивации или обучения по любопытству. А документация? Это, как известно, форма коллективного самообмана. Неудивительно, что большинство систем всё равно ломаются в продакшене.

В ближайшем будущем следует ожидать попыток объединить преимущества графового поиска с возможностями современных языковых моделей, но не в качестве замены, а в качестве дополнения. Реальная задача — не построить «самовосстанавливающуюся» систему, а создать инструмент, который предсказуемо сломается, и у которого можно быстро и дешево починить последствия. Всё, что обещает быть self-healing, просто ещё не ломалось.

Оригинал статьи: https://arxiv.org/pdf/2512.24156.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-01 19:45