Зрение не всегда означает ориентацию

Несмотря на уверенный ответ, современная мультимодальная большая языковая модель демонстрирует фундаментальное непонимание ориентации объекта относительно камеры, ошибочно определяя её как близкую к параллельной, в то время как истинное значение находится в диапазоне от 135° до 180°, что выявляет ограничения в точном восприятии пространственных деталей.

Новый тест DORI выявил существенные ограничения в способности современных мультимодальных моделей понимать пространственные отношения и геометрические преобразования.

Всевидящее зрение: Предсказание трехмерного пространства вокруг нас

Предложенная модель O3N демонстрирует способность к предсказанию семантической занятости пространства с использованием лишь всенаправленного RGB-изображения и текстового запроса класса, достигая 16.54 mIoU и 21.16 NovelmIoU на бенчмарке QuadOcc и превосходя существующие решения благодаря возможности корректной классификации объектов, не представленных в обучающей выборке.

Новая разработка позволяет компьютерам понимать и воссоздавать трехмерную картину окружающего мира, используя всесторонние изображения и даже объекты, которые они никогда раньше не видели.