Разные взгляды, общий язык: как агенты учатся общаться

Автор: Денис Аветисян


Новое исследование показывает, что различия в восприятии мира между взаимодействующими агентами влияют на эффективность коммуникации, но они способны адаптироваться и выработать общий язык.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
В системах передачи сообщений, визуализация <span class="katex-eq" data-katex-display="false">t-SNE</span> показывает, что даже при использовании различных модальностей, структура сообщений сохраняет следы информации о частоте, изначально закодированной на низком перцептивном уровне, хотя кластеризация и менее выражена по сравнению с одномодальными системами.
В системах передачи сообщений, визуализация t-SNE показывает, что даже при использовании различных модальностей, структура сообщений сохраняет следы информации о частоте, изначально закодированной на низком перцептивном уровне, хотя кластеризация и менее выражена по сравнению с одномодальными системами.

Исследование посвящено влиянию гетерогенности восприятия на формирование протоколов коммуникации в многоагентных системах.

Несмотря на успехи в области коммуникации между агентами, большинство исследований игнорируют различия в способах восприятия реального мира. В работе ‘Learning to Communicate Across Modalities: Perceptual Heterogeneity in Multi-Agent Systems’ исследуется, как агенты развивают общие системы коммуникации, когда их восприятие неоднородно и отсутствует общая основа для интерпретации сигналов. Полученные результаты показывают, что даже при расхождениях в модальностях агенты способны выработать согласованные сообщения, при этом разнообразие восприятия влияет на эффективность и структуру коммуникации. Возможно ли создание универсальных протоколов обмена информацией, адаптируемых к различным системам восприятия, и какие новые горизонты откроет это для разработки искусственного интеллекта?


Сложность Мультимодального Восприятия

Традиционные системы коммуникации зачастую испытывают трудности при обработке информации, поступающей одновременно по аудио- и визуальным каналам. Эта сложность обусловлена тем, что мозг постоянно пытается согласовать несоответствия между тем, что слышит и что видит. Например, эффект МакГерка демонстрирует, как визуальное восприятие артикуляции влияет на слуховое восприятие звуков, приводя к восприятию совершенно иного звука. Такие несоответствия создают двусмысленность, которую необходимо разрешить для успешного понимания сообщения. В результате, системы, полагающиеся на отдельные модальности, могут давать сбои при обработке мультимодальной информации, подчеркивая необходимость разработки более сложных моделей, учитывающих взаимодействие между различными сенсорными входами.

Для успешного взаимодействия, особенно в ситуациях, когда восприятие аудио- и визуальной информации различается, агенты разрабатывают сложные стратегии достижения взаимопонимания. Исследования показывают, что эти стратегии включают в себя активное прогнозирование намерений другого агента, а также постоянную проверку и корректировку собственных представлений о происходящем на основе поступающих сигналов. Важным аспектом является способность учитывать возможные неточности или искажения в восприятии, вызванные, например, шумом, плохой видимостью или индивидуальными особенностями сенсорных систем. В результате, формируется динамический процесс согласования, в котором агенты совместно конструируют общее понимание ситуации, преодолевая присущую мультимодальной коммуникации неоднозначность.

В многошаговой игре, основанной на передаче информации, отправитель кодирует аудиосигнал в дискретное сообщение, которое получатель использует для выбора правильной визуальной цели среди отвлекающих элементов, обмениваясь сообщениями до принятия решения.
В многошаговой игре, основанной на передаче информации, отправитель кодирует аудиосигнал в дискретное сообщение, которое получатель использует для выбора правильной визуальной цели среди отвлекающих элементов, обмениваясь сообщениями до принятия решения.

Развитие Агентов, Способных к Самостоятельной Коммуникации

В рамках исследования используется «Многомодальная игра с референтами», представляющая собой среду, в которой агенты должны идентифицировать объекты исключительно посредством обмена сообщениями. Данная игра построена таким образом, чтобы стимулировать развитие общего понимания и согласованности в коммуникации между агентами. Агенты не имеют доступа к визуальной информации об объектах напрямую, что вынуждает их разрабатывать и использовать эффективные методы кодирования и декодирования информации, передаваемой в сообщениях, для успешной идентификации целевых объектов. Основная цель — наблюдение за формированием общего языка и протоколов коммуникации, возникающих в процессе обучения и взаимодействия агентов.

В процессе обучения агентов используется схема с взаимодействующими ролями “Отправитель” и “Получатель”. Обучение обеих ролей осуществляется посредством обучения с подкреплением (Reinforcement Learning) с применением алгоритма REINFORCE. Для оптимизации процесса обучения и ускорения сходимости модели используется алгоритм RMSprop, который адаптирует скорость обучения для каждого параметра сети на основе экспоненциально взвешенного среднего квадратов градиентов. Данная комбинация алгоритмов позволяет агентам эффективно развивать стратегии коммуникации и осваивать общие референты в процессе игры.

Агент-отправитель кодирует аудио с помощью модели VGGish и комбинирует его с необязательным сообщением посредством суммирования их линейных проекций для создания коммуникационного сигнала, при этом в процессе обучения используется дискретное сообщение из распределения Бернулли для обеспечения градиентного потока, которое заменяется на детерминированную стратегию порогового значения во время оценки.
Агент-отправитель кодирует аудио с помощью модели VGGish и комбинирует его с необязательным сообщением посредством суммирования их линейных проекций для создания коммуникационного сигнала, при этом в процессе обучения используется дискретное сообщение из распределения Бернулли для обеспечения градиентного потока, которое заменяется на детерминированную стратегию порогового значения во время оценки.

Кодирование и Декодирование Мультимодальной Информации

Агенты используют предварительно обученные модели для извлечения признаков из мультимодальных данных. Аудиоданные преобразуются в векторные представления (эмбеддинги) с помощью модели VGGish, разработанной для анализа звука, а изображения — с помощью модели VGG16, широко применяемой в задачах компьютерного зрения. Полученные эмбеддинги последовательно обрабатываются GRU-сетью (Gated Recurrent Unit) в модуле Receiver, что позволяет учитывать временные зависимости и контекст в данных, представленных в виде последовательностей.

Базовая нейронная сеть (Baseline Network) используется в качестве основы для оценки вознаграждения, предоставляя начальное значение, которое корректируется в процессе обучения. Одновременно с этим, регуляризация энтропии (Entropy Regularisation) применяется для стимулирования разнообразия в стратегиях коммуникации агентов. Это достигается путем добавления штрафа к функции потерь, пропорционального энтропии распределения действий, что побуждает агентов исследовать различные способы передачи информации, а не сходиться к одной оптимальной стратегии. Таким образом, комбинация базовой сети и регуляризации энтропии способствует более эффективному и гибкому обучению коммуникационных протоколов.

Для извлечения наиболее значимых признаков из аудиоданных перед подачей в модель эмбеддингов применяется предварительная обработка с использованием метода главных компонент (Principal Component Analysis, PCA). PCA позволяет снизить размерность данных за счет выделения главных компонент, которые объясняют наибольшую дисперсию в исходных данных. Это не только уменьшает вычислительную сложность последующей обработки, но и помогает отфильтровать шум и повысить качество эмбеддингов, используемых для представления аудиоинформации.

Архитектура Sender Baseline агента включает в себя кодирование входных данных с помощью VGGish, проекцию через первый скрытый слой, конкатенацию с текущим сообщением и последующую передачу через два линейных слоя для оценки потерь.
Архитектура Sender Baseline агента включает в себя кодирование входных данных с помощью VGGish, проекцию через первый скрытый слой, конкатенацию с текущим сообщением и последующую передачу через два линейных слоя для оценки потерь.

Анализ Возникающих Протоколов Коммуникации

Оценка согласованности сообщений, передаваемых агентами, является ключевым аспектом анализа разработанных протоколов коммуникации. Исследование направлено на установление надежности передачи одного и того же значения при различных экземплярах класса объектов. По сути, проверяется, насколько стабильно агенты способны донести одинаковый смысл, независимо от конкретной ситуации или входных данных. Необходимость в такой оценке обусловлена тем, что успешная коммуникация требует не только способности передать информацию, но и обеспечить ее однозначное понимание получателем. Высокая согласованность сообщений указывает на то, что агенты выработали эффективный и надежный способ кодирования информации, что, в свою очередь, является важным шагом к созданию систем, способных к сложным взаимодействиям и совместному решению задач.

Для анализа значимости отдельных компонентов сообщений и структуры сформированных представлений использовались методы возмущения битов и визуализации t-SNE. Возмущение битов позволяет оценить, насколько изменение конкретного бита в сообщении влияет на производительность агентов, выявляя критически важные элементы для передачи информации. Визуализация t-SNE, в свою очередь, позволяет спроецировать многомерные представления, сформированные агентами, в двух- или трехмерное пространство, что облегчает понимание структуры и кластеризации данных, а также выявление взаимосвязей между различными сообщениями и их значениями. Данные методы показали, что агенты, развивающие собственные коммуникационные протоколы, склонны к формированию компактных и информативных представлений, в которых каждый бит сообщения несет определенную смысловую нагрузку, а структура этих представлений отражает ключевые особенности решаемой задачи.

Исследования, проведенные на разнообразных наборах данных, включая ‘Shapes World Dataset’, ‘CIFAR-100 Dataset’, ‘UrbanSound8K Dataset’ и ‘ESC-50 Dataset’, продемонстрировали устойчивость разработанных протоколов коммуникации. Первоначально, агенты демонстрировали производительность, сопоставимую со случайными предположениями, что указывало на необходимость обучения и адаптации. Однако, по мере обучения, точность значительно возрастала, позволяя агентам эффективно обмениваться информацией и достигать высоких результатов в решении поставленных задач. Этот прогресс свидетельствует о способности протоколов к обучению и адаптации к различным типам данных и задачам, что является ключевым фактором для создания эффективных систем коммуникации между агентами.

В процессе обучения протоколов коммуникации наблюдалась интересная динамика в длине сообщений. Изначально агенты использовали последовательности из 50 символов для обмена информацией, однако в ходе оптимизации длина сообщений естественным образом сокращалась, достигая всего 5 символов. Несмотря на кажущуюся эффективность такого сжатия, значительное уменьшение длины сообщений приводило к снижению точности выполнения задач и увеличению неопределенности в действиях мультимодальных агентов. Это указывает на то, что хотя сокращение длины сообщений и является желательным для повышения эффективности коммуникации, существует предел, за которым потеря информации негативно сказывается на способности агентов понимать и правильно интерпретировать получаемые сигналы.

Исследования показали, что агенты, обученные различным контекстам, способны к эффективному взаимодействию при минимальной дополнительной настройке. Протоколы связи, сформированные в различных условиях, демонстрируют удивительную способность к адаптации и взаимопониманию. Для достижения согласованности и эффективной коммуникации между такими агентами требуется всего лишь два эпохи тонкой настройки — период обучения, значительно меньший, чем при обучении с нуля. Это указывает на то, что базовые принципы коммуникации, усвоенные агентами, являются достаточно общими и гибкими, позволяя им быстро адаптироваться к новым партнерам и контекстам. Данный результат открывает перспективы для создания гибких и масштабируемых систем, где агенты, обученные в разных условиях, могут легко объединяться и эффективно сотрудничать.

Исследования показали, что после пятнадцати эпох тонкой настройки, как исходная мультимодальная система, так и вновь объединенная с ней система демонстрируют высокую точность выполнения задач одновременно. Этот результат свидетельствует о значительной адаптивности разработанных протоколов коммуникации и их способности к интеграции. Возможность достижения высокой производительности обеими системами после минимальной настройки указывает на эффективный механизм передачи знаний и согласования стратегий между агентами, что открывает перспективы для создания более гибких и масштабируемых систем искусственного интеллекта, способных к совместной работе в различных контекстах и с разными партнерами.

Визуализация t-SNE показывает, что частота оказывает большее влияние на структуру сообщений класса 'сердце', чем амплитуда, демонстрируя устойчивый паттерн при пониженных частотах.
Визуализация t-SNE показывает, что частота оказывает большее влияние на структуру сообщений класса ‘сердце’, чем амплитуда, демонстрируя устойчивый паттерн при пониженных частотах.

Исследование демонстрирует, что разнообразие восприятия между агентами оказывает значительное влияние на структуру и эффективность возникающей коммуникации. Агенты, сталкиваясь с несоответствием в восприятии, адаптируются, формируя протоколы, позволяющие успешно обмениваться информацией. Это подтверждает мысль Давида Гильберта: «Вся математика скрыта в логике». Иными словами, даже в сложных системах, где восприятие разнится, базовые принципы логической организации и адаптации позволяют достичь взаимопонимания. Наблюдаемая способность агентов к адаптации подчеркивает важность разработки эффективных коммуникационных стратегий, учитывающих гетерогенность восприятия, что является ключевым элементом успешного взаимодействия в многоагентных системах.

Куда же дальше?

Представленная работа, как и любое исследование, скорее обнажает бездну нерешенных вопросов, чем заполняет её. Очевидно, что несоответствие перцептивных систем агентов — не просто шум в канале связи, но фундаментальный фактор, формирующий структуру любой возникающей коммуникации. Однако, адаптация к этим различиям, продемонстрированная в эксперименте, поднимает вопрос о границах этой адаптивности. Каковы пределы перцептивной гетерогенности, при которых коммуникация становится принципиально невозможной? И что важнее — эффективность передачи информации или сохранение общей «картины мира»?

Следующий шаг, вероятно, лежит в исследовании более сложных перцептивных пространств, отличных от упрощенных моделей, используемых здесь. В реальных системах агентов перцептивные искажения могут быть не просто смещениями, но и принципиально иными способами восприятия. Понимание того, как агенты учатся интерпретировать «чужой» опыт, а не просто приспосабливаться к его последствиям, представляется задачей, требующей не только вычислительных моделей, но и, возможно, элементов теории информации, выходящих за рамки простой передачи данных.

Ясность — это минимальная форма любви. И в стремлении к созданию систем, способных к эффективной коммуникации, необходимо помнить, что подлинное понимание требует не только обмена сигналами, но и готовности принять чужую точку зрения, пусть даже она и кажется совершенно нелогичной.


Оригинал статьи: https://arxiv.org/pdf/2601.22041.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-30 20:40