Зрение не всегда означает ориентацию

Автор: Денис Аветисян

Новый тест DORI выявил существенные ограничения в способности современных мультимодальных моделей понимать пространственные отношения и геометрические преобразования.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Несмотря на уверенный ответ, современная мультимодальная большая языковая модель демонстрирует фундаментальное непонимание ориентации объекта относительно камеры, ошибочно определяя её как близкую к параллельной, в то время как истинное значение находится в диапазоне от 135° до 180°, что выявляет ограничения в точном восприятии пространственных деталей.

Исследование представляет DORI — эталон для оценки ориентационного мышления в больших мультимодальных языковых моделях, демонстрирующий их систематические ошибки в понимании пространственных взаимосвязей.

Несмотря на успехи современных мультимодальных больших языковых моделей, понимание пространственной ориентации объектов остается сложной задачей. В работе ‘Seeing Isn’t Orienting: A Cognitively Grounded Benchmark Reveals Systematic Orientation Failures in MLLMs Supplementary’ представлен новый когнитивно обоснованный бенчмарк DORI, позволяющий выявить системные ошибки в определении ориентации объектов, не связанные с общим пониманием сцены или распознаванием объектов. Эксперименты показали, что даже передовые модели демонстрируют результаты, близкие к случайным, при решении задач, требующих понимания ориентации, особенно при сложных поворотах и смене систем отсчета. Каковы перспективы создания действительно «зрячих» и пространственно ориентированных систем искусственного интеллекта, способных к надежной навигации и манипулированию в реальном мире?

Постижение Пространственной Ориентации: Вызов для Современного ИИ

Несмотря на значительный прогресс в области искусственного интеллекта, точное определение ориентации объектов по-прежнему представляет собой серьезную проблему для современных моделей. Это связано с тем, что большинство систем полагаются на анализ двумерных изображений и извлечение признаков, что не позволяет в полной мере учитывать трехмерные пространственные взаимосвязи, необходимые для корректного понимания положения объекта в пространстве. В результате, даже относительно простые задачи, требующие оценки ориентации, могут вызывать ошибки, подчеркивая необходимость разработки новых подходов, способных эффективно обрабатывать трехмерную информацию и обеспечивать надежное распознавание и интерпретацию положения объектов.

Современные модели искусственного интеллекта, как правило, полагаются на анализ двумерных признаков изображений для определения положения объектов в пространстве. Однако, такой подход зачастую оказывается недостаточным для точного понимания ориентации, поскольку игнорирует ключевые трёхмерные пространственные взаимосвязи. Вместо комплексного восприятия формы и глубины, системы фокусируются на плоских характеристиках, что приводит к ошибкам при интерпретации положения объектов, особенно в сложных и загроможденных окружениях. Неспособность учитывать полную трёхмерную структуру ограничивает возможности ИИ в задачах, требующих точного пространственного понимания, таких как навигация роботов или корректное наложение виртуальных объектов в дополненной реальности.

Точное определение ориентации объектов является основополагающим для широкого спектра современных технологий и приложений. В робототехнике, например, способность надежно распознавать положение и поворот предметов необходима для эффективной навигации, манипулирования объектами и взаимодействия с окружающей средой. В сфере дополненной реальности, корректное определение ориентации позволяет виртуальным объектам реалистично интегрироваться в реальный мир, обеспечивая правдоподобное наложение и взаимодействие. Помимо этого, точное распознавание ориентации критически важно в задачах компьютерного зрения, автоматизированного проектирования, а также в медицинской визуализации, где точная трехмерная реконструкция объектов имеет решающее значение для диагностики и планирования лечения. Таким образом, совершенствование алгоритмов определения ориентации способствует прогрессу во множестве областей, открывая новые возможности для автоматизации и улучшения качества жизни.

Современные алгоритмы машинного зрения зачастую испытывают трудности при интерпретации пространственной информации, что приводит к ошибкам в сложных условиях. Неспособность адекватно оценивать даже небольшие изменения в ориентации объектов, особенно в загроможденных или динамичных средах, существенно ограничивает их применение в практических задачах. Это проявляется в неточностях при распознавании объектов, планировании маршрутов для роботов и корректном наложении виртуальных элементов в дополненной реальности. Проблема усугубляется недостаточным пониманием контекста и взаимосвязей между объектами, что требует от моделей более глубокого анализа трёхмерной структуры сцены и способности к абстрактному мышлению.

Анализ визуального вопроса о гранулярном объекте, полученного при одноосном вращении в DORI, показал, что Gemini 2.0 Flash ошибочно определил угол поворота как 90° вместо правильных 180°, что свидетельствует о трудностях модели в оценке точной ориентации объекта относительно камеры.

DORI: Новый Эталон для Оценки Понимания Ориентации

DORI (Discriminative Orientation Reasoning Intelligence) — это новый эталонный набор данных, разработанный для строгой оценки способности моделей понимать ориентацию объектов. В отличие от существующих подходов, которые часто ограничиваются классификацией, DORI фокусируется на различительной способности моделей — их умении определять и анализировать тонкие различия в ориентации. Этот эталон предназначен для количественной оценки способности моделей рассуждать о пространственных отношениях и понимать ориентацию объектов в различных контекстах, что является ключевым аспектом для достижения более надежного и обобщенного компьютерного зрения.

В бенчмарке DORI оценка понимания ориентации объектов осуществляется посредством двух типов вопросов: “грубых” (coarse-grained) и “детальных” (fine-grained). “Грубые” вопросы требуют определения общей ориентации объекта, например, “стоит ли объект вертикально?”. “Детальные” вопросы, напротив, предполагают более точную оценку, например, определение угла наклона объекта относительно горизонтальной плоскости или выявление конкретной стороны, обращенной к наблюдателю. Использование обоих типов вопросов позволяет комплексно оценить способность модели к рассуждениям об ориентации, выявляя как общее понимание концепции, так и способность к точному определению пространственных параметров.

В рамках DORI для оценки обобщающей способности моделей используются как данные, полученные из симулированных рендеров, так и изображения реального мира. Использование синтетических данных позволяет контролировать параметры сцены и генерировать большие объемы размеченных данных, необходимых для обучения моделей. В то же время, тестирование на реальных изображениях необходимо для оценки способности модели адаптироваться к шумам, вариациям освещения и другим факторам, характерным для реальной среды. Сочетание этих двух типов данных позволяет комплексно оценить способность модели к рассуждениям об ориентации объектов в различных условиях и подтвердить её способность к обобщению.

В отличие от традиционных задач классификации, где модели просто определяют ориентацию объекта, DORI оценивает дискриминационные способности, требуя от модели различать незначительные изменения в ориентации и понимать их влияние на пространственные отношения. Это означает, что DORI выходит за рамки простой идентификации ориентации и проверяет способность модели к рассуждениям о том, как изменение ориентации одного объекта влияет на его взаимодействие с другими объектами в сцене. Такой подход позволяет более точно оценить, понимает ли модель истинные пространственные взаимосвязи или просто запоминает визуальные паттерны.

DORI комплексно оценивает интеллект, связанный с ориентацией объектов, охватывая их направленность, положение относительно наблюдателя и окружения, требуемые вращения для достижения целей и естественную ориентацию в пространстве.

Выявление Систематических Ошибок в Способностях Моделей

Анализ с использованием DORI выявил наличие систематических ошибок в рассуждениях о пространственной ориентации у современных мультимодальных языковых моделей. Данные показывают, что модели демонстрируют предсказуемые паттерны неточностей при определении относительного расположения объектов и их ориентации в пространстве, что указывает на недостаточное понимание фундаментальных принципов геометрии. Наблюдаемые ошибки не являются случайными, а проявляются в определенных типах задач, связанных с определением параллельности, перпендикулярности и угловых соотношений, что позволяет предположить наличие узких мест в архитектуре и обучающих данных моделей.

Анализ показывает, что одной из распространенных ошибок в работе современных мультимодальных языковых моделей является путаница между параллельными и перпендикулярными ориентациями, получившая название “Perpendicular Confusion”. Данное явление указывает на недостаток глубокого понимания базовых геометрических принципов, поскольку модели склонны к неправильной классификации этих взаимосвязей. Ошибка проявляется в неспособности последовательно определять ортогональность, что свидетельствует о поверхностном усвоении концепций пространственной ориентации и зависимости от статистических закономерностей в данных, а не от фундаментальных геометрических знаний.

Анализ выявил систематические ошибки в определении направлений и углов у современных моделей. Ошибка “Реверс направления” проявляется в неверном определении левой и правой стороны, что указывает на недостаток понимания базовых пространственных отношений. Другая ошибка, “Сжатие углов”, характеризуется предпочтением промежуточных углов вместо правильных крайних значений. Данные явления свидетельствуют о том, что модели склонны к использованию поверхностных корреляций, а не фундаментальных принципов геометрии, что приводит к неточностям в задачах, требующих точного определения пространственной ориентации.

Анализ производительности современных мультимодальных языковых моделей выявил зависимость от поверхностных корреляций, а не от фундаментальных принципов пространственной геометрии. Текущие модели демонстрируют лишь 75.8% точности в задачах на определение параллельности (View Parallelism), что указывает на значительные ограничения в понимании базовых принципов ориентации. Ещё более низкий показатель — 22.6% — достигнут в задачах на сложные вращения (Compound Rotation), что свидетельствует о трудностях при обработке комплексных трансформаций. Данные результаты подтверждают, что модели часто полагаются на статистические закономерности в обучающих данных, а не на истинное геометрическое рассуждение.

Анализ производительности различных моделей при решении задач на относительную ориентацию выявил значительный разрыв в эффективности — 65% между лучшими и худшими результатами. Это указывает на существенные различия в способности моделей к пониманию и обработке пространственных отношений, а также демонстрирует значительный потенциал для улучшения существующих архитектур и алгоритмов обучения. Разница в производительности подчеркивает, что оптимизация в данной области может привести к существенному повышению общей точности и надежности систем, использующих модели для анализа и интерпретации пространственных данных.

Анализ задачи Inter-object Direction в DORI показал, что даже GPT-4-1 испытывает трудности с определением относительного расположения объектов, ошибочно выбирая ’Частично направлены в противоположные стороны’ вместо верного ответа ’Частично направлены в одну сторону’, что подтверждается неудачами у 13 из 15 моделей.

Преодолевая Ограничения: К Надежному Пространственному ИИ

Понимание ориентации объектов является фундаментальным аспектом для создания надежных и устойчивых систем искусственного интеллекта в разнообразных приложениях. Способность точно определять положение и поворот объектов в пространстве позволяет ИИ не только распознавать их, но и предсказывать их поведение, планировать действия и эффективно взаимодействовать с окружающим миром. Недостаточное понимание ориентации приводит к ошибкам в навигации роботов, некорректной обработке изображений, а также к неточностям в задачах, связанных с манипулированием объектами. Развитие алгоритмов и моделей, способных к более глубокому и точному пониманию ориентации, открывает новые возможности для автоматизации, повышения безопасности и эффективности во многих областях, от автономного транспорта до промышленной робототехники и дополненной реальности.

Включение в процесс обучения моделей искусственного интеллекта представлений об «эгоцентрической» и «аллоцентрической» относительной ориентации значительно улучшает их способность к рассуждению о положении объектов с различных точек зрения. “Эгоцентрическая” ориентация описывает положение объекта относительно самого наблюдателя, в то время как “аллоцентрическая” — относительно внешней, фиксированной системы координат. Интеграция этих концепций позволяет моделям не просто распознавать объекты, но и понимать их пространственные взаимосвязи, а также предсказывать, как изменится положение объекта при смене точки зрения. Такой подход имитирует способы, которыми люди и животные ориентируются в пространстве, что способствует созданию более надежных и адаптивных систем искусственного интеллекта, способных эффективно функционировать в реальных условиях.

Обучение моделей искусственного интеллекта с использованием четких инструкций, ориентированных на пространственное мышление, демонстрирует значительный потенциал в повышении точности предсказания ориентации объектов. Данный подход, известный как “Instruction Tuning”, предполагает предоставление модели не только изображений, но и текстовых указаний, описывающих требуемые пространственные отношения или задачи. Например, модель может получать задание определить, находится ли объект «слева» или «спереди» относительно другого. Настоящий метод позволяет модели не просто распознавать объекты, но и понимать их взаимное расположение в пространстве, что особенно важно для приложений, требующих надежной ориентации в трехмерном окружении. Подобная тонкая настройка позволяет ИИ не просто «видеть», но и «рассуждать» о пространственных взаимосвязях, значительно повышая его способность к обобщению и адаптации к новым ситуациям.

Для повышения обобщающей способности и устойчивости моделей искусственного интеллекта активно применяются методы увеличения данных, такие как вращения и трансляции, позволяющие искусственно расширить обучающую выборку и сделать модель менее чувствительной к вариациям в данных. Исследования показывают, что использование более мягкой метрики оценки, так называемой “мягкой точности” (Soft Accuracy), способно увеличить точность моделей на 17.7%, что свидетельствует о возможности улучшения существующих методик оценки и необходимости пересмотра критериев, используемых для определения эффективности алгоритмов пространственного анализа. Данный подход позволяет более адекватно оценивать способность моделей к обобщению и корректной интерпретации данных, даже при незначительных отклонениях от идеальных условий.

Несмотря на правильный ответ о повороте на <span class="katex-eq" data-katex-display="false">180^\circ</span> в задаче DORI, модель GPT-4o демонстрирует несоответствие между предсказанием и объяснением, указывающее на пробелы в визуальном рассуждении, что подтверждается низкой точностью (2 из 15 моделей). — Несмотря на правильный ответ о повороте на $180^\circ$ в задаче DORI, модель GPT-4o демонстрирует несоответствие между предсказанием и объяснением, указывающее на пробелы в визуальном рассуждении, что подтверждается низкой точностью (2 из 15 моделей).

Исследование, представленное в данной работе, демонстрирует, что даже самые передовые мультимодальные большие языковые модели (MLLM) испытывают трудности с базовыми задачами пространственной ориентации. Это подчеркивает, что простое ‘видение’ не равно пониманию. Янн Лекун однажды сказал: «Машинное обучение — это поиск закономерностей в данных». В контексте DORI benchmark, становится очевидно, что модели способны обнаруживать визуальные признаки, но им не хватает способности установить причинно-следственные связи между ними и понимать геометрические преобразования, что указывает на отсутствие глубокого понимания пространственных отношений. Это несоответствие между восприятием и ориентацией требует новых подходов к обучению и оценке MLLM, чтобы они действительно могли ‘понимать’ окружающий мир.

Куда же дальше?

Представленный анализ выявляет не столько неспособность моделей “видеть”, сколько их фундаментальную некомпетентность в вопросах ориентации. Кажется, что простое распознавание объектов на изображении не гарантирует понимания их пространственных взаимосвязей и, тем более, геометрических преобразований. Элегантность решения не в увеличении количества параметров, а в создании архитектур, способных к истинному пространственному мышлению — задача, требующая отхода от поверхностного сопоставления пикселей и переосмысления самой концепции “понимания” в контексте мультимодальных моделей.

Появление эталонного набора данных DORI подчеркивает необходимость в более строгих и детализированных метриках оценки. Достаточно ли простого определения правильного ответа? Или следует оценивать и процесс рассуждения, выявляя логические ошибки и неточности? Настоящий прогресс требует не только улучшения результатов, но и углубления понимания причин неудач. В противном случае, мы рискуем создать системы, которые кажутся умными, но на деле лишь имитируют интеллект.

В конечном итоге, вопрос заключается не в том, чтобы научить машины “видеть”, а в том, чтобы научить их “понимать” пространство так, как это делаем мы. И это требует не только технологических инноваций, но и философского переосмысления самой природы интеллекта. Красота и последовательность в архитектуре моделей — залог их долговечности и понятности, а значит и истинного прогресса.

Оригинал статьи: https://arxiv.org/pdf/2603.11410.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-15 01:29