Видео как геометрия: новый взгляд на понимание мира

Автор: Денис Аветисян


Исследователи предлагают принципиально новый подход к анализу видео, преобразуя визуальную информацию в компактный пространственный код для повышения точности рассуждений.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Подход, преобразующий видео в явные трёхмерные пространственные коды и использующий текстовую модель для рассуждений на их основе, значительно превосходит современные мультимодальные модели, такие как GPT-5o и Gemini-2.5, в задачах пространственного анализа видео, причём ключевым фактором оказывается качество трёхмерного пространственного представления, а не просто масштаб модели.
Подход, преобразующий видео в явные трёхмерные пространственные коды и использующий текстовую модель для рассуждений на их основе, значительно превосходит современные мультимодальные модели, такие как GPT-5o и Gemini-2.5, в задачах пространственного анализа видео, причём ключевым фактором оказывается качество трёхмерного пространственного представления, а не просто масштаб модели.

Предложенная архитектура позволяет языковым моделям лучше понимать физические взаимодействия в видео, фокусируясь на геометрическом представлении, а не на масштабе модели.

Несмотря на успехи в области компьютерного зрения, понимание физического мира по видео остается сложной задачей из-за неявного представления пространственных отношений. В работе ‘Thinking with Spatial Code for Physical-World Video Reasoning’ предложен фреймворк, преобразующий видеопоток в явные, согласованные во времени 3D-представления, кодирующие пространственные отношения объектов. Ключевым результатом является демонстрация того, что такая кодировка позволяет большим языковым моделям (LLM) осуществлять более точное пространственное рассуждение, опираясь на геометрические данные, а не на масштаб модели. Не откроет ли этот подход новые горизонты для создания интеллектуальных систем, способных к глубокому пониманию динамики окружающего мира?


Преодолевая Разрыв: От Пикселей к Пространственному Пониманию

Современные системы анализа видео, несмотря на значительные успехи в распознавании объектов, зачастую испытывают трудности при переходе к истинному пространственному мышлению. Ограничиваясь идентификацией предметов на изображении, они не способны полноценно интерпретировать трехмерные взаимосвязи между ними, что существенно снижает надежность понимания всей сцены. Эта проблема особенно актуальна для задач, требующих не просто определения «что» присутствует в кадре, но и понимания «где» объекты находятся относительно друг друга и окружающей среды. В результате, системы могут ошибочно интерпретировать происходящее, не учитывая геометрические характеристики и пространственные отношения, что препятствует созданию действительно интеллектуальных и надежных систем видеоаналитики.

Традиционные методы анализа видео, рассматривающие его как последовательность отдельных кадров, зачастую упускают из виду ключевые трёхмерные геометрические связи между объектами. Такой подход, хотя и эффективен для распознавания отдельных предметов, препятствует полноценному пониманию пространственных отношений в сцене. В результате, системы оказываются неспособны решать задачи, требующие осознания глубины, масштаба и взаимного расположения объектов — например, навигацию робота в пространстве или точное определение траектории движения. Потеря информации о трёхмерной структуре ограничивает возможности систем в выполнении задач, требующих не просто идентификации объектов, а понимания как они связаны друг с другом в пространстве и где они находятся относительно друг друга.

Система кодирует видео в структурированные пространственные коды, включающие информацию о категориях, положении, размере и ориентации объектов, используя двойной энкодер для извлечения признаков объектов и глубины, что позволяет языковым моделям выполнять пространственное рассуждение и отвечать на вопросы, требующие понимания перспективы и геометрической привязки.
Система кодирует видео в структурированные пространственные коды, включающие информацию о категориях, положении, размере и ориентации объектов, используя двойной энкодер для извлечения признаков объектов и глубины, что позволяет языковым моделям выполнять пространственное рассуждение и отвечать на вопросы, требующие понимания перспективы и геометрической привязки.

“Мышление с Пространственным Кодом”: Новое Представление

Подход “Thinking-with-Spatial-Code” преобразует необработанное видео в структурированные трехмерные пространственные представления. В процессе преобразования фиксируются семантические признаки объектов, их положение в пространстве, размеры и ориентация. Это достигается путем анализа видеопотока и выделения ключевых параметров, необходимых для построения цифровой модели сцены, где каждый объект характеризуется указанными атрибутами. Полученные данные позволяют представить видео не как последовательность изображений, а как структурированную информацию о 3D-пространстве и объектах, находящихся в нем.

В основе данного подхода лежит пространственный энкодер (Spatial Encoder), который генерирует так называемые «пространственные коды» — явные представления трехмерной сцены. Эти коды представляют собой структурированное описание объектов, включающее информацию об их семантике, положении в пространстве, размере и ориентации. Процесс кодирования позволяет преобразовать необработанное видео в формат, пригодный для анализа и обработки моделями искусственного интеллекта, обеспечивая более точное и эффективное понимание трехмерной структуры сцены.

Отделение визуального ввода от геометрического понимания позволяет большим языковым моделям (LLM) более эффективно рассуждать об пространственных взаимосвязях. Традиционно, LLM обрабатывают визуальную информацию напрямую, что приводит к сложностям в интерпретации трехмерных сцен и понимании отношений между объектами. Предоставляя LLM явное, структурированное представление о геометрии сцены, независимое от пиксельных данных, мы создаем условия для более точного и надежного анализа пространственных конфигураций, что повышает их способность к решению задач, требующих понимания относительного положения, размера и ориентации объектов в пространстве.

В отличие от Gemini 2.5 Pro, использующего визуальные подсказки и сталкивающегося с трудностями в задачах, требующих пространственного мышления, наша система, оперирующая с пространственными кодами, успешно решает задачи, связанные с учетом перспективы, ориентации и 3D-измерениями, благодаря точному преобразованию координат и предоставлению явных параметров.
В отличие от Gemini 2.5 Pro, использующего визуальные подсказки и сталкивающегося с трудностями в задачах, требующих пространственного мышления, наша система, оперирующая с пространственными кодами, успешно решает задачи, связанные с учетом перспективы, ориентации и 3D-измерениями, благодаря точному преобразованию координат и предоставлению явных параметров.

Двойной Энкодер: Объединение Визуального и Геометрического

Архитектура Dual-Encoder объединяет SAM-2 и Depth Anything 3 для получения комплексного представления сцены. SAM-2 обеспечивает надежную сегментацию и извлечение признаков на уровне объектов, определяя их границы и характеристики. В свою очередь, Depth Anything 3 предоставляет точные данные о глубине, позволяя восстановить трехмерную геометрию сцены и определить положение объектов в пространстве. Интеграция этих двух моделей позволяет системе одновременно понимать, что находится на сцене и где это находится, формируя основу для дальнейшего анализа и понимания контекста.

Комбинирование извлечения признаков на уровне объектов с помощью SAM-2 и точного 3D-геометрического понимания, обеспечиваемого Depth Anything 3, позволяет системе не только идентифицировать объекты на изображении, но и определять их пространственные взаимосвязи в сцене. Это достигается путем анализа глубины и положения каждого объекта, что позволяет установить, как объекты расположены относительно друг друга — например, находятся ли они перед, за или рядом друг с другом, а также их относительные размеры и ориентацию. Результатом является создание детального представления сцены, включающего не только идентифицированные объекты, но и их пространственное окружение.

Голова 3D-обнаружения дополнительно уточняет полученные представления, предсказывая ограничивающие рамки (bounding boxes) и атрибуты объектов. Этот модуль выполняет регрессию координат центра объекта в 3D-пространстве, а также предсказывает размеры и ориентацию ограничивающей рамки. Помимо геометрических параметров, предсказываются атрибуты, такие как класс объекта и уровень уверенности обнаружения, что позволяет системе не только локализовать объекты в сцене, но и классифицировать их, обеспечивая повышенную ситуационную осведомленность и точность определения местоположения.

Данная реализация 3D-головы включает в себя детализированную структуру, обеспечивающую её функциональность и реалистичность.
Данная реализация 3D-головы включает в себя детализированную структуру, обеспечивающую её функциональность и реалистичность.

Усиление LLM и Совершенствование Пространственного Мышления

Исследования показали, что явное предоставление языковым моделям (LLM) пространственных кодов в качестве входных данных значительно повышает их способность к рассуждениям при анализе видеоматериалов. Вместо того чтобы полагаться исключительно на визуальные признаки, модели получают структурированную информацию о пространственных отношениях между объектами, что позволяет им глубже понимать сцены и делать более точные выводы. Такой подход позволяет LLM выходить за рамки поверхностного распознавания образов и демонстрировать подлинное пространственное понимание, что критически важно для задач, требующих анализа геометрических связей и ориентации в пространстве. Это приводит к улучшению результатов в различных задачах видеоанализа и открывает новые возможности для разработки более интеллектуальных и надежных систем.

Для повышения способности больших языковых моделей (LLM) к пространственному мышлению, был использован алгоритм обучения с подкреплением GRPO. Этот алгоритм позволяет точно настраивать LLM, используя разработанную “Пространственную Рубрику Вознаграждения”. Данная рубрика стимулирует модель учитывать перспективу и геометрические закономерности в анализируемых данных. В результате, LLM не просто распознают визуальные шаблоны, но и демонстрируют более глубокое понимание пространственных отношений, что существенно повышает надежность и точность получаемых результатов в задачах, связанных с видео и 3D-сценами.

Внедрение пространственных кодов в качестве явного ввода позволяет большим языковым моделям (LLM) перейти от поверхностного распознавания закономерностей к подлинному пониманию пространственных отношений. Данный подход обеспечивает более надежные и точные результаты в задачах, связанных с визуальным мышлением, и позволяет достичь передовых показателей на бенчмарке VSI-Bench, демонстрируя точность в 56.5%, что на 1.5% превосходит результаты модели GPT-5o. Это свидетельствует о значительном прогрессе в способности LLM к анализу и интерпретации визуальной информации, переходя от простого сопоставления образов к глубокому пониманию геометрии и перспективы, что открывает новые возможности для применения в робототехнике и компьютерном зрении.

Предложенный фреймворк продемонстрировал выдающиеся результаты не только на специализированных бенчмарках, но и на общепризнанных наборах данных для 3D-восприятия, таких как ARKitScenes и ScanNet. Достигнутые показатели, а именно F1@.25 в 0.156 для ARKitScenes и 0.209 для ScanNet, подтверждают способность системы к обобщению и адаптации к различным сценариям и типам 3D-данных. Это свидетельствует о том, что разработанный подход не ограничивается конкретными задачами или условиями, а может быть эффективно применен для решения широкого спектра проблем, связанных с пониманием и анализом трехмерного пространства, что открывает перспективы для дальнейших исследований и практического применения в областях робототехники, дополненной реальности и компьютерного зрения.

В ходе тестирования на бенчмарке Video-RoboSpatial наблюдалось увеличение точности на 6,7% по сравнению с существующими решениями, включая модель GPT-5. Данный результат подтверждает эффективность предложенного подхода к улучшению пространственного мышления у больших языковых моделей. Улучшение точности указывает на то, что разработанная методика позволяет моделям более надежно интерпретировать и понимать пространственные отношения в видеоданных, что критически важно для задач, связанных с робототехникой и визуальным восприятием окружающей среды. Полученные данные демонстрируют, что акцент на пространственном рассуждении приводит к существенному повышению производительности в задачах, требующих понимания трехмерного мира.

В отличие от стандартных подходов, использующих SFT и RL, предложенная система, оперируя 3D пространственными кодами и структурированной пространственной метрикой вознаграждения, значительно повышает качество пространственного рассуждения.
В отличие от стандартных подходов, использующих SFT и RL, предложенная система, оперируя 3D пространственными кодами и структурированной пространственной метрикой вознаграждения, значительно повышает качество пространственного рассуждения.

Исследование демонстрирует элегантный подход к проблеме пространственного мышления в видеоанализе. Вместо того чтобы увеличивать масштаб модели, авторы предлагают преобразовать видеопоток в явные трехмерные пространственные коды. Этот метод позволяет большим языковым моделям сосредоточиться на геометрическом представлении, что значительно улучшает их способность к пространственному рассуждению. Как однажды заметил Ян ЛеКун: «Масштаб не является решением; понимание — вот что имеет значение». Данная работа подтверждает эту мысль, подчеркивая, что глубинное понимание геометрии сцены важнее, чем просто увеличение вычислительных ресурсов. Подобный подход, основанный на четком представлении данных, позволяет создавать более эффективные и понятные системы искусственного интеллекта.

Куда Ведет Пространственный Код?

Представленный подход, переводя видеоряд в явные трёхмерные пространственные коды, безусловно, демонстрирует элегантность решения. Однако, следует признать, что истинное понимание пространства — задача, выходящая далеко за рамки геометрического представления. Вопрос в том, насколько адекватно эти коды отражают динамику взаимодействия объектов, их физические свойства и, что важнее, намерения, скрытые за визуальными сигналами. Следовательно, дальнейшее развитие неизбежно связано с интеграцией этих кодов с моделями, способными к причинно-следственному анализу и прогнозированию.

Очевидным направлением является расширение спектра воспринимаемых физических свойств. Помимо геометрии, необходимо учитывать текстуру, освещение, деформацию объектов — все элементы, формирующие целостную картину мира. Не менее важной представляется задача масштабируемости: сможет ли данный подход эффективно работать с видеопотоками высокой плотности и сложности, характерными для реальных сценариев? Упрощение — это искусство, но чрезмерное упрощение неизбежно ведет к потере информации.

В конечном счете, успех подобного подхода будет определяться не столько точностью геометрического кодирования, сколько способностью системы к абстракции и обобщению. Машина должна не просто «видеть» пространство, но и «понимать» его логику, уметь выявлять закономерности и предсказывать будущие события. Иначе, это всего лишь красивая, но пустая форма, лишенная истинного содержания.


Оригинал статьи: https://arxiv.org/pdf/2603.05591.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-09 22:41