Виртуальные галлюцинации под контролем: новый подход к надежности ИИ-агентов

Автор: Денис Аветисян

Исследователи предлагают метод, позволяющий снизить склонность интеллектуальных агентов к выдумыванию информации в трехмерных виртуальных средах.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Система 3D-VCD строит структурированный граф 3D-сцены <span class="katex-eq" data-katex-display="false">\mathcal{G}</span>, кодирующий категории объектов, центроиды и размеры, намеренно внося контролируемые семантические и геометрические искажения для создания модифицированной версии окружения <span class="katex-eq" data-katex-display="false">\hat{\mathcal{G}}</span>, после чего, обрабатывая как исходный, так и искажённый контекст параллельно с текстовым запросом <span class="katex-eq" data-katex-display="false">\mathbf{x}</span>, контрастно объединяет их логиты, выявляя и подавляя склонные к галлюцинациям элементы, обеспечивая таким образом 3D-обоснованный вывод без дополнительного обучения. — Система 3D-VCD строит структурированный граф 3D-сцены $\mathcal{G}$ , кодирующий категории объектов, центроиды и размеры, намеренно внося контролируемые семантические и геометрические искажения для создания модифицированной версии окружения $\hat{\mathcal{G}}$ , после чего, обрабатывая как исходный, так и искажённый контекст параллельно с текстовым запросом $\mathbf{x}$ , контрастно объединяет их логиты, выявляя и подавляя склонные к галлюцинациям элементы, обеспечивая таким образом 3D-обоснованный вывод без дополнительного обучения.

Метод 3D-VCD использует графические сцены и контрастное декодирование для повышения точности и надежности работы мультимодальных языковых моделей в задачах воплощенного искусственного интеллекта.

Несмотря на прогресс в области мультимодальных моделей, воплощенные агенты, функционирующие в трехмерных средах, по-прежнему склонны к галлюцинациям, приводящим к небезопасным и необоснованным решениям. В работе ‘3D-VCD: Hallucination Mitigation in 3D-LLM Embodied Agents through Visual Contrastive Decoding’ представлен 3D-VCD — первый метод, использующий контрастное декодирование на основе трехмерных графов сцен для смягчения галлюцинаций в режиме реального времени, без необходимости переобучения модели. Предложенный подход подавляет токены, нечувствительные к реальным данным сцены, тем самым повышая надежность и обоснованность действий агента. Способны ли подобные методы контрастного декодирования стать ключевым элементом в создании действительно надежного и безопасного воплощенного искусственного интеллекта?

Понимание Трехмерного Мира: От Иллюзий к Воплощенному Интеллекту

Современные мультимодальные модели, несмотря на впечатляющие успехи в обработке текста и изображений, испытывают значительные трудности при сопоставлении языка с комплексными трехмерными средами. Эта проблема ограничивает их способность выполнять задачи, требующие пространственного мышления и понимания взаимосвязей между объектами в 3D-пространстве. Например, модели могут испытывать затруднения при интерпретации инструкций типа «поставь книгу на полку над телевизором», поскольку им сложно точно определить расположение объектов в трехмерном окружении и их взаимное расположение. В результате, способность к полноценному взаимодействию с физическим миром, требующая точного 3D-рассуждения, остается серьезным вызовом для развития искусственного интеллекта.

Для полноценного взаимодействия с физическим миром недостаточно обработки двумерных изображений; необходим переход к комплексному пониманию трехмерных сцен. Традиционные методы компьютерного зрения, основанные на анализе плоских картинок, сталкиваются с ограничениями при интерпретации глубины, формы и пространственных отношений между объектами. Развитие технологий, позволяющих создавать и анализировать трехмерные модели окружения, открывает новые возможности для робототехники, навигации и манипулирования объектами. Способность алгоритмов не просто «видеть», но и «понимать» трехмерную структуру мира, является ключевым фактором для создания действительно автономных и интеллектуальных систем, способных эффективно функционировать в реальных условиях.

Необходимость надежного трехмерного рассуждения становится ключевым фактором, стимулирующим инновации в области воплощенного искусственного интеллекта и робототехники. Разработка систем, способных полноценно воспринимать и взаимодействовать с окружающим миром в трех измерениях, открывает новые горизонты для автоматизации сложных задач. Современные исследования направлены на создание алгоритмов, позволяющих роботам не только распознавать объекты, но и понимать их пространственные отношения, прогнозировать последствия действий и адаптироваться к динамически меняющейся среде. Воплощенный ИИ, интегрированный с продвинутыми системами 3D-видения и планирования траекторий, позволяет создавать роботов, способных выполнять широкий спектр задач — от навигации в сложных помещениях и манипулирования объектами до совместной работы с человеком и автономного исследования окружающей среды. Это требует не просто обработки визуальной информации, но и построения полной 3D-модели мира, а также развития алгоритмов, способных эффективно использовать эту модель для принятия решений и планирования действий.

В отличие от базовой 3D-LLM, которая ошибочно обнаруживает объект «стол», 3D-VCD точно определяет его отсутствие благодаря контрастному декодированию, подавляющему ложные соответствия категорий и согласованному с объектно-ориентированным графом сцены.

Представление Реальности: От Изображений к 3D-Графам Сцен

Традиционные методы представления данных, основанные на изображениях, демонстрируют ограниченные возможности при решении задач, требующих сложного трехмерного анализа. Обработка изображений, как правило, оперирует пикселями и не содержит явной информации о геометрической структуре сцены, взаимосвязях между объектами или их семантических свойствах. Это затрудняет выполнение таких операций, как оценка расстояний, определение окклюзий или понимание пространственных отношений.

Сценарные графы представляют собой мощный метод кодирования объектов, их атрибутов и взаимосвязей в трехмерной среде. В основе сценарного графа лежит представление сцены как графа, где узлы соответствуют объектам или частям объектов, а ребра — отношениям между ними, таким как «содержит», «рядом с», «над» или «под». Каждый узел и ребро может быть дополнен атрибутами, описывающими свойства объекта (цвет, размер, материал) или характер взаимосвязи (расстояние, угол). Такая структура позволяет эффективно хранить и обрабатывать информацию о пространственном расположении объектов, обеспечивая возможность логического вывода и анализа сцены, а также упрощает задачу понимания и интерпретации трехмерных данных для систем компьютерного зрения и искусственного интеллекта.

Интеграция представлений сцены в виде графов с языковыми моделями значительно повышает точность и детализацию рассуждений о пространственных контекстах. Традиционные методы анализа изображений часто не способны выявить сложные взаимосвязи между объектами и их свойствами. Использование графов сцен позволяет кодировать информацию об объектах, их атрибутах и отношениях, что, в свою очередь, позволяет языковой модели учитывать пространственную структуру при обработке запросов. Например, запрос «Найти книгу справа от лампы» требует понимания не только объектов («книга», «лампа»), но и их пространственного расположения, которое эффективно представляется в графе сцены и интерпретируется языковой моделью для точного ответа. Это позволяет создавать системы, способные выполнять сложные пространственные рассуждения и предоставлять более точные и релевантные результаты.

Время работы алгоритма 3D-VCD увеличивается с ростом сложности сцены, определяемой количеством объектов.

Обоснование Языка в 3D: Новые Модели для Пространственного Мышления

Модели, такие как 3D-LLM, используют волюметрические вложения для непосредственной интеграции трёхмерных пространственных данных в языковые модели. Волюметрические вложения представляют собой многомерные векторы, кодирующие информацию о форме и объеме объектов в трёхмерном пространстве. В отличие от традиционных методов, основанных на дискретных представлениях или ручном создании признаков, волюметрические вложения позволяют моделировать непрерывные трёхмерные сцены и отношения между объектами. Это обеспечивает возможность выполнения рассуждений о 3D-сценах на основе произвольных текстовых запросов, то есть, реализацию «открытого» 3D-рассуждения без предварительной привязки к конкретному набору объектов или отношений.

Модель 3D-VisTA использует выравнивание пространственно-семантических данных для установления связи между визуальным восприятием и пониманием языка у воплощенных агентов. Это достигается посредством обучения модели сопоставлять визуальные особенности трехмерной среды с соответствующими лингвистическими командами и описаниями. В процессе обучения 3D-VisTA анализирует данные с датчиков (например, камеры) и сопоставляет их с текстовыми инструкциями, что позволяет агенту интерпретировать команды, связанные с пространственным положением объектов и навигацией в среде. Выравнивание пространственно-семантических данных позволяет агенту не только понимать команды, но и выполнять действия в трехмерном пространстве, опираясь на визуальную информацию и лингвистические инструкции.

Модель LEO улучшает привязку языка к реальности за счет явного использования 3D объектно-центрированных представлений. Вместо обработки сцены как единого целого, LEO декомпозирует её на отдельные объекты, каждый из которых представлен в 3D-пространстве. Это позволяет модели более точно понимать отношения между объектами и выполнять сложные рассуждения, связанные с пространственным положением и свойствами объектов. В результате, точность выполнения задач, требующих понимания 3D-сцены и следования языковым инструкциям, значительно повышается по сравнению с моделями, использующими целостные представления сцены.

В отличие от базовой 3D-LLM, склонной к галлюцинациям (например, добавлению кровати), разработанная 3D-VCD точно определяет объекты, контрастируя логиты под воздействием возмущенных 3D-схем сцены и подавляя активацию галлюцинированных объектов.

Смягчение Галлюцинаций: Контрастное Декодирование для Надежного 3D-Мышления

Галлюцинации представляют собой серьезную проблему для систем искусственного интеллекта, работающих в физическом мире. Эти галлюцинации проявляются как генерация неверных или не соответствующих действительности утверждений о 3D-окружении, что приводит к принятию ненадежных решений и выполнению ошибочных действий. Некорректная интерпретация трехмерного пространства и объектов в нем может привести к сбоям в навигации, манипулировании объектами и других важных задачах, требующих точного понимания окружающей среды. В результате, надежность и безопасность таких систем оказываются под угрозой, ограничивая их применение в критически важных областях.

Метод 3D-VCD решает проблему галлюцинаций путем использования контрастного декодирования. Суть подхода заключается в сравнении исходных 3D-схем сцены с их намеренно искаженными версиями. В процессе декодирования модель выявляет и подавляет выходные данные, которые не согласуются с исходной 3D-схемой, тем самым повышая надежность и точность рассуждений. Искажения создаются путем применения геометрических и семантических преобразований к исходной схеме, что позволяет модели научиться отличать правдоподобные сценарии от нереалистичных.

Метод 3D-VCD повышает устойчивость мультимодальных языковых моделей и улучшает их соответствие реальности за счет введения геометрических и семантических возмущений. В ходе тестирования на бенчмарке 3D-POPE, применение данного метода позволило снизить частоту избыточных утверждений на 10.9-24.7% и повысить точность результатов на 8.1-35.8%. Введение возмущений позволяет модели более эффективно различать правдоподобные и неправдоподобные сценарии, что приводит к более надежным выводам и уменьшению количества галлюцинаций.

На бенчмарке 3D-POPE метод 3D-VCD, не требующий обучения, последовательно повышает точность, F1-меру и аккуратность, значительно снижая склонность к избыточным утверждениям во всех типах разделений данных (случайном, популярном и состязательном).

Оценка и Будущее Развитие 3D-Мышления

Для всесторонней оценки возможностей воплощенных агентов в трехмерном пространстве, а также выявления склонности к галлюцинациям и проблемам с заземлением, ключевое значение имеют специализированные эталоны, такие как 3D-POPE и HEAL. Эти бенчмарки позволяют исследователям систематически анализировать и сравнивать различные модели, проверяя их способность точно воспринимать и взаимодействовать с виртуальной средой. Оценивая способность агентов соотносить свои действия с реальными объектами и избегать создания несуществующих элементов, подобные эталоны не только позволяют количественно оценить прогресс в области 3D-рассуждений, но и стимулируют разработку более надежных и правдоподобных систем искусственного интеллекта, способных успешно функционировать в сложных трехмерных условиях.

Разработка специализированных эталонов, таких как 3D-POPE и HEAL, предоставляет исследователям уникальную возможность для систематической оценки и сопоставления производительности различных моделей в сложных трехмерных средах. Эти эталоны позволяют не просто измерить общую точность, но и детально проанализировать способность моделей к корректному сопоставлению визуальной информации с физическим миром, а также выявить склонность к “галлюцинациям” — генерации несуществующих объектов или искажению реальности. Благодаря стандартизированным метрикам, ученые могут объективно сравнивать разные подходы к 3D-рассуждениям, выявлять слабые места существующих алгоритмов и направлять усилия на создание более надежных и точных систем, способных эффективно взаимодействовать с окружающим пространством.

Разработанная методика 3D-VCD демонстрирует значительное снижение частоты галлюцинаций в задачах трехмерного рассуждения. В ходе исследований зафиксирован показатель частоты галлюцинаций состояния на уровне 5.0%, что является существенным улучшением по сравнению с 16.5%, достигнутым при использовании модели Qwen-14B-Instruct. Кроме того, частота галлюцинаций объектов была снижена до 1.0% при применении модели Llama-3-8B. Эти результаты свидетельствуют о повышении надежности и точности систем трехмерного восприятия и рассуждений, что открывает новые возможности для применения в робототехнике, дополненной реальности и других областях, требующих точного понимания трехмерного пространства.

Перспективы развития систем трехмерного рассуждения неразрывно связаны с созданием более сложных и всесторонних эталонов оценки. Исследователи сосредоточены на разработке бенчмарков, способных выявлять не только общую производительность, но и устойчивость к различным помехам и неоднозначностям в трехмерном пространстве. Помимо этого, активно изучаются инновационные подходы к повышению надежности систем, включая методы обучения с подкреплением, самообучение и интеграцию знаний из различных источников. Целью этих усилий является создание систем, способных не только точно воспринимать и интерпретировать трехмерную информацию, но и надежно функционировать в реальных, динамично меняющихся условиях, что открывает новые возможности для применения в робототехнике, компьютерном зрении и других областях.

В задаче «очистка одежды от ворса», базовая модель Qwen-14B-Instruct ошибочно предсказывает наличие микроволновой печи, в то время как 3D-VCD корректно определяет символические цели, точно определяя местоположение свитеров на кровати и исключая состояния, связанные с пылью, в соответствии с инструкцией.

Исследование, представленное в данной работе, демонстрирует важность структурированного подхода к восприятию и интерпретации визуальной информации. Методика 3D-VCD, использующая графы 3D-сцен, направлена на снижение галлюцинаций в моделях искусственного интеллекта, что является критически важным для обеспечения надёжности и правдоподобности их действий. Как однажды заметила Фэй-Фэй Ли: «Искусственный интеллект должен быть не просто умным, но и понимать мир вокруг нас». Эта фраза прекрасно отражает суть представленной работы — не просто создание моделей, способных генерировать ответы, а обеспечение их глубокого понимания окружающей среды через объекто-центрированное представление и контрастное декодирование, что позволяет агентам действовать более осмысленно и предсказуемо.

Куда же дальше?

Представленная работа, безусловно, демонстрирует перспективность использования трехмерных графов сцен и контрастного декодирования для смягчения галлюцинаций в воплощенном искусственном интеллекте. Однако, следует признать, что проблема «видений» в больших языковых моделях — это лишь симптом более глубокой проблемы: неспособности системы к истинному пониманию мира. Простое сопоставление визуальной информации с текстовым описанием — это лишь приближение к реальности, а не её отражение.

Будущие исследования, вероятно, будут сосредоточены на разработке более сложных объектно-ориентированных представлений, способных учитывать не только статичные свойства объектов, но и их динамическое взаимодействие. Важно также исследовать возможности интеграции знаний из различных модальностей — не только визуальных и текстовых, но и тактильных, слуховых, и даже обонятельных. В конце концов, мир познается не только зрением, но и всеми органами чувств.

Остается открытым вопрос о масштабируемости предложенного подхода. Эффективность 3D-VCD, несомненно, заслуживает дальнейшей проверки на более сложных и реалистичных сценах. И, возможно, самое главное — необходимо помнить, что даже самая совершенная система ИИ — это лишь инструмент, и ответственность за её использование лежит на тех, кто её создает.

Оригинал статьи: https://arxiv.org/pdf/2604.08645.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-13 14:38