Автор: Денис Аветисян
Исследователи представили ENACT — комплексную методику оценки способности моделей искусственного интеллекта моделировать динамику окружающего мира через взаимодействие с ним.
Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.
Купить акции "голубых фишек"
ENACT — это бенчмарк для оценки воплощенного познания, использующий задачи моделирования мира и перестановки последовательностей для проверки понимания ИИ эгоцентричного взаимодействия.
Современные модели обработки языка и зрения, обученные преимущественно на пассивных данных, вызывают вопросы об их способности к действительному воплощенному познанию. В данной работе представлена новая методика оценки, ‘ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction’, рассматривающая воплощенное познание как моделирование мира через эгоцентрическое взаимодействие в формате визуального вопросно-ответного анализа. Методика ENACT, основанная на задачах переупорядочивания последовательностей, выявляет пробел в возможностях современных моделей по сравнению с человеческими, особенно при увеличении горизонта взаимодействия. Сможет ли разработка более эффективных бенчмарков приблизить нас к созданию искусственного интеллекта, способного к полноценному взаимодействию с окружающим миром?
За пределами восприятия: Необходимость воплощенного интеллекта
Современные визуальные языковые модели демонстрируют впечатляющие успехи в распознавании образов и понимании визуальной информации, однако их способность к моделированию физических взаимодействий остается ограниченной. Несмотря на умение идентифицировать объекты и описывать сцены, модели часто испытывают трудности в предсказании последствий действий или понимании причинно-следственных связей в физическом мире. Например, предсказать траекторию падающего предмета или понять, как изменится равновесие конструкции после удаления одного из элементов, оказывается сложной задачей. Это связано с тем, что обучение моделей происходит преимущественно на основе статических изображений и текстовых описаний, лишенных опыта непосредственного взаимодействия с окружающей средой, что создает существенный разрыв между «зрением» и пониманием физических законов, управляющих миром.
Истинный интеллект не ограничивается способностью воспринимать окружающий мир, но требует активного взаимодействия с ним. В отличие от систем, которые лишь пассивно анализируют визуальную информацию, подлинное понимание формируется через действия и их последствия. Исследования показывают, что полноценное когнитивное развитие невозможно без “воплощения” — интеграции сенсорных данных с моторными функциями и физическим опытом. Подобный подход позволяет не только распознавать объекты, но и предсказывать их поведение, планировать действия и адаптироваться к изменяющимся условиям, что является ключевым признаком разумного существа. В конечном счете, способность активно формировать и изменять окружающую среду, а не просто наблюдать за ней, является определяющим фактором истинного интеллекта.
Существенное ограничение современных визуальных языковых моделей заключается в их неспособности надёжно предсказывать последствия действий и реконструировать предшествующие события, что препятствует развитию полноценного воплощённого познания. В отличие от человека, способного интуитивно понять, как изменится положение объекта после толчка или как развивалась ситуация до наблюдаемого момента, модели зачастую демонстрируют пробелы в понимании причинно-следственных связей и динамики физического мира. Эта неспособность к прогнозированию и ретроспективному анализу существенно ограничивает возможности агентов взаимодействовать с окружающей средой осмысленно и эффективно, поскольку требует от них не просто распознавания объектов, но и моделирования их поведения во времени и пространстве. В результате, даже обладая впечатляющими способностями к визуальному восприятию, такие модели уступают человеку в понимании базовых физических принципов и способности адаптироваться к меняющимся обстоятельствам.
Для преодоления существующего разрыва в возможностях искусственного интеллекта, необходимы специализированные оценочные тесты, которые проверяют способность агента моделировать окружающую среду и предвидеть последствия собственных действий. Эти тесты должны выходить за рамки простого распознавания образов и фокусироваться на понимании физических взаимодействий и причинно-следственных связей. Исследования показывают, что современные визуальные языковые модели (VLMs) значительно уступают людям в способности предсказывать результаты действий или реконструировать прошлые события, что указывает на существенный пробел в их понимании мира. Разработка таких эталонных тестов позволит более точно оценить прогресс в создании действительно воплощенного искусственного интеллекта и выявить области, требующие дальнейших исследований для достижения уровня когнитивных способностей, присущих человеку.

ENACT: Эталон для оценки воплощенного рассуждения
Тестовый набор ENACT предоставляет платформу для оценки возможностей визуальных языковых моделей (VLM) в области как прямого, так и обратного моделирования мира. Прямое моделирование (forward modeling) подразумевает предсказание будущих состояний окружающей среды на основе текущих действий и наблюдений, в то время как обратное моделирование (inverse modeling) заключается в определении действий, необходимых для достижения желаемого состояния. Оценка проводится посредством серии задач, требующих от VLM понимания физических принципов и причинно-следственных связей в смоделированной среде, что позволяет количественно оценить способность модели к планированию и решению задач, основанных на взаимодействии с миром.
Бенчмарк ENACT использует реалистичный симулятор робототехники BEHAVIOR Simulator для генерации разнообразных и физически правдоподобных сценариев. BEHAVIOR Simulator позволяет создавать сложные интерактивные среды, моделирующие реальные физические законы и свойства объектов. Это обеспечивает возможность оценки моделей визуально-языкового понимания (VLM) в условиях, приближенных к реальным, с учётом таких факторов, как гравитация, трение и столкновения. Разнообразие генерируемых сценариев включает в себя различные объекты, окружения и задачи, что позволяет всесторонне оценить способность VLM к моделированию мира и планированию действий.
Оценка моделей в ENACT проводится с использованием метрик точности выполнения задачи (Task Accuracy) и парной точности (Pairwise Accuracy). Результаты демонстрируют существенный разрыв в производительности между визуально-языковыми моделями (VLM) и человеком, особенно при увеличении горизонта взаимодействия. Наблюдается снижение точности VLM с ростом количества шагов, необходимых для выполнения задачи, в то время как человеческая производительность остается более стабильной. Данные метрики позволяют количественно оценить способность модели к планированию и долгосрочному рассуждению в динамической среде.
В отличие от традиционных оценочных метрик, ориентированных на достижение уровня производительности, сопоставимого с человеческим, ENACT предоставляет более детализированную оценку способности агента к проактивному планированию и действиям, то есть, его агентности. Исследования, проведенные с использованием ENACT, показывают, что производительность визуально-языковых моделей (VLM) существенно снижается по мере увеличения горизонта планирования задачи. Это указывает на то, что модели испытывают трудности с поддержанием когерентности и предсказанием последствий действий в более отдаленной перспективе, что является ключевым аспектом для успешного выполнения сложных, многоступенчатых задач в реальном мире.

Раскрытие скрытых предвзятостей в восприятии ИИ
Анализ, проведенный в рамках методологии ENACT, выявил предвзятость в сторону правшей у визуально-языковых моделей (VLM). Данная предвзятость проявляется в статистически значимой склонности моделей к интерпретации и генерации изображений, демонстрирующих действия, выполняемые правой рукой. В ходе экспериментов было установлено, что модели чаще правильно классифицируют и предсказывают действия, выполняемые правой рукой, чем аналогичные действия, выполняемые левой. Это свидетельствует о том, что модели усвоили предпочтение правши из данных, на которых они обучались, и, как следствие, могут демонстрировать сниженную производительность при обработке действий, выполняемых левшами.
Анализ данных обучения визуальных языковых моделей (VLM) выявил смещение, связанное с углом обзора камеры (Camera FOV). В большинстве используемых датасетов преобладает узкий угол обзора, что ограничивает способность модели обобщать информацию и корректно интерпретировать сцены, снятые с более широким или нестандартным углом обзора. Это может приводить к снижению точности при анализе изображений, полученных с разных точек зрения, и затрудняет применение моделей в реальных сценариях, где перспективу камеры нельзя контролировать. Ограниченный диапазон углов обзора в обучающих данных приводит к недостаточному представлению разнообразных визуальных ситуаций, что негативно сказывается на робастности и адаптивности модели к новым, непредставленным в процессе обучения, перспективам.
Выявленные антропоцентрические искажения в моделях восприятия искусственного интеллекта подчеркивают необходимость формирования более инклюзивных и непредвзятых наборов данных для обучения. Текущие наборы данных часто отражают предвзятости, связанные с человеческими особенностями и перспективами, что приводит к снижению обобщающей способности моделей в реальных сценариях. Для решения этой проблемы требуется тщательный отбор данных, включающий разнообразие условий, объектов и точек зрения, а также разработка метрик оценки, способных выявлять и количественно оценивать предвзятости, влияющие на производительность моделей. Акцент на разнообразии и объективности данных позволит создавать более надежные и универсальные системы искусственного интеллекта, способные эффективно функционировать в различных контекстах.
Анализ показал, что предвзятости в моделях визуального понимания (VLM) существенно снижают точность моделирования и предсказания взаимодействий в средах, отличающихся от человеческих представлений. В частности, при анализе ошибок в задачах прямого и обратного кинематического анализа установлено, что более 80% ошибок составляют галлюцинации и пропуски информации. Это указывает на неспособность агентов корректно интерпретировать и прогнозировать действия в ситуациях, где не соблюдаются антропоцентричные условности, что критически важно для надежной работы в реальных условиях.

За пределами симуляции: К надежному пониманию физического мира
Симулятор BEHAVIOR предоставляет возможность генерировать обширные данные, детализирующие так называемые «Контактные Предикаты» — фундаментальные описания физических взаимодействий между объектами. Эти предикаты представляют собой не просто информацию о соприкосновении, но и точные характеристики этих контактов, включая силу, направление и тип взаимодействия. Благодаря такому детальному представлению, симулятор позволяет получить богатый набор данных, необходимых для обучения агентов, способных адекватно воспринимать и моделировать окружающий мир. Информация о контактных предикатах позволяет, например, определить, будет ли объект падать, катиться или оставаться на месте после взаимодействия с другим объектом, что критически важно для разработки систем, способных к реалистичному и надежному поведению в физической среде.
Детальное моделирование физических взаимодействий является основополагающим для создания агентов, способных к построению надёжных моделей окружающего мира. Вместо оперирования с абстрактными представлениями, подобный подход позволяет агентам формировать понимание о том, как объекты влияют друг на друга, и какие последствия вытекают из этих взаимодействий. Это не просто распознавание объектов, а активное моделирование сил, трения, столкновений и других физических явлений, что позволяет предсказывать поведение системы в различных ситуациях и эффективно адаптироваться к изменениям в окружающей среде. Такой подход открывает путь к созданию интеллектуальных систем, способных не только понимать мир, но и действовать в нём, опираясь на глубокое физическое понимание.
Явное моделирование физических взаимодействий позволяет агентам значительно улучшить способность предсказывать последствия собственных действий и делать выводы о причинах наблюдаемых событий. Вместо того, чтобы полагаться на абстрактные представления мира, система, детально учитывающая контактные взаимодействия между объектами, способна оценивать, как изменится окружение в ответ на конкретное действие. Это достигается за счет анализа силы, направления и типа контакта, что позволяет агенту не просто «знать», что произойдет, но и «понимать» почему это произойдет. Например, при попытке переместить объект, система может предсказать, возникнет ли сопротивление, и, следовательно, потребуется ли больше усилий, или же объект легко сдвинется с места. Подобный механизм позволяет создавать более надежные и адаптивные системы искусственного интеллекта, способные эффективно взаимодействовать с физическим миром и решать сложные задачи.
Разработка систем искусственного интеллекта, способных к подлинному воплощенному познанию и эффективному взаимодействию с физическим миром, долгое время оставалась сложной задачей. Однако, углубленное моделирование физических взаимодействий, как это достигается с помощью инструментов вроде BEHAVIOR Simulator, открывает новые перспективы в этой области. Способность агентов не просто воспринимать окружающую среду, но и предсказывать последствия своих действий, а также понимать причины наблюдаемых событий, является ключевым шагом к созданию ИИ, способного к автономному и адаптивному поведению в реальном мире. Такой подход позволяет выйти за рамки простой симуляции и приблизиться к созданию систем, которые не просто «знают» о физических законах, но и интуитивно их применяют в процессе взаимодействия с окружающей средой, что является основой для истинного воплощенного интеллекта.

Представленный труд демонстрирует стремление к созданию не просто систем, а именно экосистем, способных к моделированию окружающего мира. Авторы, словно садовники, взращивают способность языковых моделей к пониманию динамики взаимодействия с окружающей средой, используя подход, основанный на построении графов сцен и последовательностей действий. Как точно подмечено Барбарой Лисков: «Хороший дизайн — это всегда компромисс». В данном контексте, компромисс заключается в балансе между сложностью модели и ее способностью к адаптации к новым, непредсказуемым ситуациям. Идея оценки embodied cognition через перестановку последовательностей действий подчеркивает, что истинное понимание мира требует не просто запоминания фактов, а способности к логическому выводу и предвидению последствий.
Что дальше?
Представленная работа, стремясь оценить способность больших языковых моделей к моделированию мира через эгоцентричное взаимодействие, неизбежно обнажила не столько возможности, сколько глубокие ограничения. Каждый успешно пройденный тест — лишь иллюзия понимания, временно маскирующая фундаментальную неспособность системы предвидеть последствия своих действий. Ибо мир не сводится к последовательности переупорядоченных сцен, а представляет собой клубок нелинейных зависимостей, где каждая деталь отзывается эхом в будущем.
Вместо того, чтобы стремиться к созданию все более совершенных «скаффолдов» для языковых моделей, следует признать, что истинное моделирование мира требует не столько вычислений, сколько роста. Как и любое живое существо, система должна учиться не на идеализированных данных, а на собственных ошибках, на боли и разочаровании. Каждый рефакторинг начинается как молитва и заканчивается покаянием.
Будущие исследования, вероятно, столкнутся с необходимостью преодолеть иллюзию «общего интеллекта». Недостаточно научить систему отвечать на вопросы о мире; необходимо дать ей возможность действовать в нем, ощущать его сопротивление, и, что самое главное, учиться на своих неудачах. Ибо система взрослеет, когда она падает.
Оригинал статьи: https://arxiv.org/pdf/2511.20937.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Motorola Moto G06 Power ОБЗОР: плавный интерфейс, большой аккумулятор, удобный сенсор отпечатков
- Прогноз курса евро к йене на 2025 год
- Лучшие смартфоны. Что купить в ноябре 2025.
- Аналитический обзор рынка (26.11.2025 03:32)
- Новые смартфоны. Что купить в ноябре 2025.
- Аналитический обзор рынка (23.11.2025 04:32)
- Неважно, на что вы фотографируете!
- Подводная съёмка. Как фотографировать под водой.
- Xiaomi 17 Pro Max ОБЗОР: замедленная съёмка видео, много памяти, скоростная зарядка
- Прогнозы цен на LSETH: анализ криптовалюты LSETH
2025-11-27 18:09