Память как у человека: новый подход к обучению «умных» агентов

Автор: Денис Аветисян


Исследователи предлагают инновационную систему памяти, вдохновленную когнитивными способностями человека, для повышения эффективности автономных агентов в сложных средах.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Предлагаемый подход объединяет когнитивную метапамять, эпизодическую и семантическую память для обеспечения эффективного исследования и точного рассуждения при решении последовательных задач навигации.
Предлагаемый подход объединяет когнитивную метапамять, эпизодическую и семантическую память для обеспечения эффективного исследования и точного рассуждения при решении последовательных задач навигации.

В работе представлена непараметрическая система памяти, разделяющая эпизодическую и семантическую память, для улучшения долговременной навигации и рассуждений мультимодальных языковых моделей.

Несмотря на успехи мультимодальных больших языковых моделей (MLLM), их применение в качестве «мозга» воплощенных агентов затруднено при работе с долгосрочными наблюдениями и ограниченным контекстным окном. В статье ‘Improving MLLMs in Embodied Exploration and Question Answering with Human-Inspired Memory Modeling’ предложена непараметрическая структура памяти, разделяющая эпизодическую и семантическую память для улучшения навигации и ответов на вопросы. Такой подход, основанный на извлечении опыта и визуальном рассуждении, позволяет агентам эффективно использовать прошлые наблюдения и обобщать знания между различными средами. Сможет ли предложенный механизм памяти значительно повысить автономность и адаптивность воплощенных агентов в сложных реальных условиях?


За пределами простого запоминания: необходимость воплощенной памяти

Традиционные системы искусственного интеллекта зачастую демонстрируют ограниченные возможности при решении задач, связанных с навигацией в реальном мире и ответами на вопросы, требующие понимания контекста. Это связано с тем, что большая часть существующих алгоритмов опирается на статические базы знаний, которые не способны адаптироваться к динамично меняющимся условиям окружающей среды. В отличие от человека, способного использовать предыдущий опыт для интерпретации текущей ситуации, такие системы испытывают трудности с применением знаний в новых, незнакомых ситуациях. Они не могут эффективно интегрировать информацию, полученную из различных источников, и делать обоснованные выводы, что существенно ограничивает их применимость в сложных, непредсказуемых сценариях.

Для создания действительно эффективных воплощенных агентов необходимо, чтобы системы могли динамически интегрировать прошлый опыт с текущими восприятиями, выходя за рамки простого воспроизведения информации. Такой подход позволяет агентам не просто «вспоминать» ранее увиденное, но и адаптировать свое поведение к изменяющимся обстоятельствам. Вместо хранения знаний в виде статичных фактов, система должна уметь связывать прошлые события с текущей ситуацией, используя контекст для принятия обоснованных решений. Именно способность к такой динамической интеграции позволяет воплощенным агентам проявлять гибкость и приспособляемость, необходимые для успешного функционирования в реальном мире, что отличает их от систем, полагающихся исключительно на запоминание и воспроизведение данных.

Современные подходы к созданию искусственного интеллекта часто испытывают трудности при решении сложных задач, поскольку не способны эффективно разделять и использовать как эпизодическую, так и семантическую память. Эпизодическая память, хранящая конкретные переживания и контекст событий, и семантическая память, содержащая общие знания о мире, обычно смешиваются, что затрудняет адаптацию к новым ситуациям и принятие обоснованных решений. Неспособность четко разграничить эти типы памяти приводит к неэффективному использованию накопленного опыта, снижая способность агентов к гибкому поведению и затрудняя успешное выполнение задач, требующих как знания фактов, так и понимания контекста, в котором эти факты были получены. Разработка систем, способных к тонкому разделению и интеграции этих двух типов памяти, является ключевой задачей для создания более интеллектуальных и адаптивных искусственных агентов.

В качественном исследовании A-EQA наша методика продемонстрировала более точное восстановление информации между эпизодами и эффективное исследование среды по сравнению с базовым алгоритмом 3D-Mem.
В качественном исследовании A-EQA наша методика продемонстрировала более точное восстановление информации между эпизодами и эффективное исследование среды по сравнению с базовым алгоритмом 3D-Mem.

Непараметрическая структура: разделение опыта и знаний

Предлагается непараметрическая структура памяти, которая явно разделяет модули эпизодической и семантической памяти, обеспечивая независимое хранение и извлечение опыта и обобщенных знаний. Эпизодическая память предназначена для записи детальных, привязанных ко времени переживаний, в то время как семантическая память используется для дистилляции переиспользуемых правил принятия решений. Разделение этих типов памяти позволяет системе хранить конкретные события и извлекать общие принципы, что обеспечивает гибкость и эффективность адаптации к новым средам и задачам. Структура не накладывает предварительных ограничений на формат данных, позволяя хранить информацию в ее исходном виде и извлекать ее по мере необходимости.

Предлагаемая архитектура использует эпизодическую память для регистрации детализированных, привязанных ко времени переживаний, фиксируя конкретные события и их последовательность. В свою очередь, семантическая память служит для извлечения и обобщения повторно используемых правил принятия решений на основе этих переживаний. Это позволяет системе накапливать знания, не привязанные к конкретным временным рамкам, и применять их для оптимизации поведения в различных ситуациях. Таким образом, эпизодическая память выступает в качестве источника данных для формирования семантической памяти, обеспечивая долгосрочное обучение и адаптацию.

Разделение модулей эпизодической и семантической памяти позволяет системе повысить гибкость и эффективность адаптации к новым средам и задачам. Изоляция конкретных событий (эпизодическая память) от обобщенных правил принятия решений (семантическая память) обеспечивает возможность независимого обновления и использования каждой из этих категорий информации. Это позволяет быстрее реагировать на изменения, избегать интерференции между детальными воспоминаниями и общими знаниями, и более эффективно обобщать опыт для решения новых задач. В результате, система демонстрирует улучшенную способность к обучению и адаптации в динамических условиях.

Использование правил, основанных на структуре программного кода, для семантической памяти позволяет добиться успешных траекторий рассуждений (зеленым) в отличие от неудачных (красным).
Использование правил, основанных на структуре программного кода, для семантической памяти позволяет добиться успешных траекторий рассуждений (зеленым) в отличие от неудачных (красным).

Извлечение переиспользуемых правил: дистилляция знаний в стиле программирования

Наш подход использует метод извлечения правил, основанный на программном анализе, для преобразования необработанных данных опыта в структурированные, высокоуровневые правила принятия решений. Этот процесс позволяет осуществить дистилляцию знаний из эпизодической памяти (хранилища конкретных событий) в семантическую память (обобщенные знания о мире). По сути, отдельные случаи опыта анализируются и преобразуются в общие принципы, которые могут быть использованы для принятия решений в новых ситуациях. Это обеспечивает переход от запоминания конкретных действий к пониманию принципов, лежащих в их основе, что повышает эффективность и гибкость агента.

Для повышения качества и точности извлеченных правил используется метод обнаружения отклонений в принятых решениях. Этот метод анализирует траекторию агента и выявляет критические моменты, в которых наблюдаются значимые расхождения между предсказанным и фактическим поведением. Эти моменты служат индикаторами потенциальных ошибок в текущих правилах, позволяя системе идентифицировать ситуации, требующие уточнения или добавления новых правил. Анализ отклонений позволяет системе целенаправленно улучшать правила, фокусируясь на наиболее сложных и важных сценариях, что приводит к повышению общей надежности и эффективности системы принятия решений.

Для создания детализированных представлений окружающей среды используется построение иерархических графов сцен, основанных на векторных вложениях. Данный процесс опирается на методы, такие как HOV-SG, позволяющие структурировать визуальную информацию, а также на инструменты CLIP и SAM для извлечения признаков и сегментации объектов. Векторные вложения, полученные с помощью этих инструментов, кодируют семантические и визуальные характеристики сцены, позволяя системе эффективно представлять и анализировать сложные окружения. Иерархическая структура графов сцен обеспечивает многоуровневое представление, от отдельных объектов до их взаимосвязей и общей композиции, что повышает точность и эффективность последующей обработки информации.

Проверка и производительность: эталонное воплощенное рассуждение

Предложенная система прошла всестороннее тестирование на сложных эталонных задачах, таких как GOAT-Bench и Open-EQA Benchmark, что позволило продемонстрировать значительные улучшения в двух ключевых областях: непрерывной визуальной навигации и активном воплощенном вопросно-ответном взаимодействии. Оценка проводилась в реалистичных, динамически меняющихся средах, требующих от системы не только эффективного планирования маршрута, но и способности к семантическому пониманию вопросов и контекста окружения. Результаты показывают, что система успешно справляется с задачами долгосрочной навигации, адаптируясь к новым условиям и сохраняя информацию о пройденных маршрутах, а также способна предоставлять корректные ответы на вопросы, требующие анализа визуальной информации и понимания взаимосвязей между объектами.

Оценка предложенного подхода на бенчмарке GOAT-Bench продемонстрировала впечатляющие результаты, подтверждающие его эффективность в области воплощенного рассуждения. Показатель успешности, достигший 72.8%, свидетельствует о высокой способности системы к эффективной навигации и достижению поставленных целей в сложных визуальных средах. Одновременно, показатель SPL (Score Per Level) на уровне 56.1% подтверждает, что система не только успешно исследует окружение, но и формирует семантически корректные ответы, отражающие понимание контекста и задач. Сочетание высокой скорости исследования и точности ответов указывает на то, что разработанный подход позволяет агентам эффективно взаимодействовать с миром и решать поставленные перед ними задачи.

В ходе тестирования на бенчмарке A-EQA, разработанная система демонстрирует высокий уровень соответствия ответам большой языковой модели — 65.6%. При этом, комбинированная метрика, учитывающая как соответствие ответам языковой модели, так и семантическую правильность (LLM-Match x SPL), достигает 48.7%. Проведенные исследования показали, что ключевую роль в достижении этих результатов играют два типа памяти: эпизодическая память, обеспечивающая 39.1% соответствия ответам языковой модели, и семантическая память, вносящая более значительный вклад — 60.9%. Это подтверждает, что эффективное сочетание различных типов памяти необходимо для построения систем, способных к сложным рассуждениям и ответам на вопросы в визуально насыщенной среде.

Исследование демонстрирует, что эффективность мультимодальных больших языковых моделей в воплощенных агентах напрямую зависит от способности к аккумулированию и осмыслению опыта. Разделение эпизодической и семантической памяти позволяет агентам не просто запоминать последовательности действий, но и извлекать общие принципы, применимые в новых ситуациях. Как однажды заметил Роберт Тарьян: «Алгоритмы должны быть достаточно хороши, чтобы работать, но достаточно простыми, чтобы их можно было понять». Именно простота и ясность структуры памяти, предложенной в данной работе, позволяет агентам эффективно ориентироваться в сложных средах и успешно решать задачи долгосрочной навигации. Эта архитектура, позволяющая агенту «прощать ошибки» предыдущих действий, подтверждает идею о том, что устойчивость системы определяется не изоляцией компонентов, а способностью к адаптации и обучению на основе прошлого опыта.

Что дальше?

Представленная работа, стремясь разделить опыт и знание в памяти агента, лишь подчеркивает фундаментальную проблему: попытка построить систему, способную к настоящему обучению, обречена на повторение ошибок прошлого. Каждый успешно извлеченный эпизод, каждая обобщенная семантическая единица — это временное облегчение, иллюзия контроля над нарастающим хаосом. Вполне вероятно, что через три итерации архитектуры, этот паттерн столкнется с непредвиденными ситуациями, не учтенными в начальном наборе данных, и вернется к исходной точке — необходимости в ручной корректировке.

Истинный прогресс лежит не в усовершенствовании механизмов памяти, а в принятии её несовершенства. Следующим шагом представляется не создание более сложных моделей, а разработка инструментов для диагностики и смягчения последствий неизбежных сбоев. Агент, способный предвидеть собственную некомпетентность и адаптироваться к ней, окажется куда более устойчивым, чем тот, что стремится к недостижимому идеалу.

В конечном счете, надежда на создание «идеальной» архитектуры — это форма отрицания энтропии. Истинная задача состоит не в том, чтобы её победить, а в том, чтобы научиться с ней жить, извлекая уроки из каждой неудачи и принимая неизбежность перемен.


Оригинал статьи: https://arxiv.org/pdf/2602.15513.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-02-18 15:48