Понимают ли языковые модели пространство без картинок?

Автор: Денис Аветисян


Новое исследование оценивает способность больших языковых моделей к пространственному мышлению, используя исключительно текстовые описания окружающей среды.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Разработан конвейер создания эталонных данных, включающий два параллельных подхода: генерацию вопросов и ответов с нуля на основе разнообразных визуальных сцен с применением оценки качества GPT-4o и адаптацию существующих эталонов путём отбора задач, решаемых исключительно текстовым анализом, после чего оба потока проходят автоматическую фильтрацию DeepSeek-R1 для исключения утечек данных и вопросов, требующих абсолютных метрик, а финальная валидация 3800 высококачественных примеров осуществляется экспертами с использованием рационализаций R1-CoT.
Разработан конвейер создания эталонных данных, включающий два параллельных подхода: генерацию вопросов и ответов с нуля на основе разнообразных визуальных сцен с применением оценки качества GPT-4o и адаптацию существующих эталонов путём отбора задач, решаемых исключительно текстовым анализом, после чего оба потока проходят автоматическую фильтрацию DeepSeek-R1 для исключения утечек данных и вопросов, требующих абсолютных метрик, а финальная валидация 3800 высококачественных примеров осуществляется экспертами с использованием рационализаций R1-CoT.

Представлен SiT-Bench — новый бенчмарк для оценки пространственного интеллекта языковых моделей на основе текстовых данных.

Несмотря на значительные успехи в области пространственного интеллекта (SI), остается неясным, откуда берется способность к пониманию пространства: из визуальных кодировщиков или из базового механизма рассуждений. В работе «Can LLMs See Without Pixels? Benchmarking Spatial Intelligence from Textual Descriptions» представлен новый эталон SiT-Bench, предназначенный для оценки пространственных способностей больших языковых моделей (LLM) исключительно на основе текстовых описаний. Результаты показывают, что, хотя LLM демонстрируют успехи в локальных задачах, сохраняется существенный «пространственный разрыв» в обеспечении глобальной согласованности, что указывает на скрытый потенциал для моделирования мира. Способны ли LLM развивать полноценное пространственное мышление, опираясь лишь на текстовые данные, и как это повлияет на будущее Vision-Language Models и воплощенного ИИ?


За гранью зрения: Текстовое пространственное мышление как новый рубеж

Современные системы искусственного интеллекта демонстрируют впечатляющие результаты в решении пространственных задач, основанных на визуальной информации — распознавании объектов, навигации по изображениям и видео. Однако, способность к пространственному мышлению значительно снижается, когда информация поступает исключительно в текстовом формате. В то время как человек способен сформировать четкое представление о пространстве, опираясь лишь на словесное описание, существующие алгоритмы испытывают трудности с интерпретацией текстовых инструкций, требующих понимания взаимосвязей между объектами и их положениями в пространстве. Это ограничение препятствует развитию систем, способных к полноценному взаимодействию с окружающим миром, и ставит под вопрос возможность создания искусственного интеллекта, способного к абстрактному мышлению и планированию действий на основе текстовых данных.

Ограниченность искусственного интеллекта в понимании пространственных отношений исключительно на основе текста существенно замедляет развитие воплощенного ИИ и широкого спектра приложений, требующих абстрактного пространственного мышления. Невозможность эффективно интерпретировать текстовые инструкции, описывающие окружение и необходимые действия в нем, препятствует созданию роботов, способных автономно ориентироваться и взаимодействовать со сложными пространствами. Эта проблема особенно актуальна в таких областях, как навигация, планирование задач, а также в разработке виртуальных и дополненных реальностей, где точное понимание и моделирование пространства является ключевым фактором. Дальнейшее развитие технологий, способных к текстовому пространственному рассуждению, откроет новые возможности для создания более интеллектуальных и адаптивных систем, способных решать задачи, требующие сложного когнитивного анализа окружающей среды.

Для преодоления ограничений существующих систем искусственного интеллекта в понимании пространственных отношений исключительно на основе текста, необходимо отделить когнитивные процессы, связанные с пространственным мышлением, от непосредственного восприятия. Это означает, что модели должны научиться формировать и манипулировать внутренними представлениями пространства, не опираясь на визуальные или другие сенсорные данные. Иными словами, задача заключается в создании систем, способных к абстрактному пространственному мышлению, где понимание возникает не из анализа изображений, а из интерпретации лингвистической информации и построения логических выводов о расположении объектов и их взаимосвязях. Успешное решение этой задачи открывает путь к созданию более гибких и интеллектуальных систем, способных эффективно функционировать в сложных, неструктурированных средах, где визуальная информация может быть ограничена или недоступна.

Основная сложность в создании искусственного интеллекта, способного к пространственному мышлению, заключается в разработке моделей, которые могут формировать и оперировать внутренними “моделями мира” на основе исключительно текстовых описаний. В отличие от систем, обучающихся на визуальных данных, подобные модели должны извлекать информацию о положении объектов, их взаимосвязях и пространственных отношениях, полагаясь лишь на лингвистические конструкции. Это требует от алгоритмов не просто понимания слов, но и способности преобразовывать абстрактные текстовые инструкции в конкретное, структурированное представление пространства, позволяющее, например, представлять себе комнату по описанию или планировать маршрут, основываясь на текстовых указаниях. Успешная реализация такого подхода откроет возможности для создания более гибких и интеллектуальных систем искусственного интеллекта, способных к полноценному взаимодействию с окружающим миром, даже при отсутствии визуальной информации.

SiT-Bench: Испытание на пространственное мышление, свободное от визуального шума

SiT-Bench — это новый оценочный набор данных, разработанный для измерения способности больших языковых моделей (LLM) к пространственному мышлению исключительно на основе текстовой информации. В отличие от существующих бенчмарков, требующих мультимодальных входных данных (например, изображений), SiT-Bench предоставляет LLM только текстовые описания окружающей среды и взаимосвязей между объектами. Это позволяет изолированно оценить способность модели к пространственному анализу и планированию, без влияния визуальной информации. Основная цель разработки SiT-Bench — предоставить инструмент для точной оценки и улучшения способности LLM к пониманию и манипулированию пространственными отношениями, представленными в текстовом формате.

В отличие от существующих бенчмарков, SiT-Bench намеренно исключает использование мультимодальных входных данных, таких как изображения или видео. Это позволяет изолированно оценить способность языковых моделей (LLM) к пространственному мышлению, основываясь исключительно на текстовом описании окружения и взаимосвязей между объектами. Такой подход позволяет точно определить, насколько эффективно модель может конструировать и манипулировать ментальной картой пространства, основываясь лишь на лингвистической информации, без визуальных подсказок или иных дополнительных данных.

В основе SiT-Bench лежит использование “Координатно-ориентированного текста” (Coordinate-Aware Text), представляющего собой специальный формат текстовых описаний, в котором пространственные отношения и положения объектов кодируются через явное указание координат. Это позволяет однозначно и точно описывать окружение и взаимосвязи между объектами, устраняя неоднозначность, свойственную естественному языку. Вместо описаний вроде “слева от стола”, используется формат, позволяющий представить расположение объекта в виде (x, y, z) координат относительно заданной системы отсчета. Такой подход обеспечивает возможность автоматизированной и точной оценки способности языковых моделей к пространственному рассуждению исключительно на основе текстовых данных, без необходимости использования визуальных или иных мультимодальных входных данных.

Тестовый набор SiT-Bench включает в себя различные категории задач, такие как «Навигация и планирование» и «Логика и обнаружение аномалий», для всесторонней оценки понимания пространственных отношений. Категория «Навигация и планирование» проверяет способность модели интерпретировать текстовые описания окружающей среды и генерировать последовательности действий для достижения заданной цели. В свою очередь, «Логика и обнаружение аномалий» оценивает способность модели выявлять несоответствия или невозможные ситуации, описанные в тексте, требуя анализа пространственных взаимосвязей между объектами и их соответствия логическим правилам. Комбинация этих категорий позволяет комплексно оценить способность языковой модели к пространственному рассуждению, основываясь исключительно на текстовой информации.

Для демонстрации SiT-Bench были отобраны несколько характерных подзадач из каждой категории, при этом важно отметить, что оценка проводится исключительно на основе текстового ввода, а изображения служат лишь для наглядности и упрощены для лучшего понимания.
Для демонстрации SiT-Bench были отобраны несколько характерных подзадач из каждой категории, при этом важно отметить, что оценка проводится исключительно на основе текстового ввода, а изображения служат лишь для наглядности и упрощены для лучшего понимания.

Проверка на прочность: Результаты SiT-Bench и границы возможностей LLM

Тесты SiT-Bench показали, что, несмотря на успешное выполнение некоторых задач, связанных с текстовым пространственным мышлением, большие языковые модели (LLM) испытывают трудности при решении комплексных задач, требующих многоступенчатого рассуждения. Это проявляется в снижении точности при увеличении количества шагов, необходимых для определения пространственных отношений или выполнения действий в описываемой сцене. В то время как LLM способны успешно справляться с простыми задачами, включающими одношаговое логическое заключение, сложность возникает при обработке информации, требующей последовательного применения нескольких логических правил и поддержания контекста на протяжении всей цепочки рассуждений. Данное ограничение указывает на недостаточную способность моделей к построению и использованию сложных когнитивных структур для решения пространственных задач.

Анализ результатов SiT-Bench показал, что задачи, требующие ‘Мульти-перспективного и геометрического рассуждения’ и ‘Глобального восприятия и построения карт’, представляют особую сложность для современных языковых моделей. В рамках ‘Мульти-перспективного и геометрического рассуждения’ модели испытывают трудности с интеграцией информации из различных описаний одного и того же объекта или сцены, а также с применением геометрических принципов для определения пространственных взаимосвязей. Задачи ‘Глобального восприятия и построения карт’ требуют от моделей формирования целостной картины пространства на основе текстовых данных, что включает в себя понимание относительного расположения объектов и их взаимосвязей, и является особенно сложной задачей для существующих архитектур. Низкая производительность в этих категориях указывает на ограниченные возможности моделей в области пространственного мышления и формирования ментальных представлений об окружающей среде.

Метод подсказок «Цепочка рассуждений» (Chain-of-Thought, CoT) значительно повышает эффективность языковых моделей при решении сложных задач, требующих пространственного и геометрического мышления. Наблюдаемые улучшения в производительности различных моделей демонстрируют, что явное представление промежуточных шагов рассуждений является критически важным для успешного выполнения таких задач. В частности, CoT позволяет моделям более эффективно структурировать информацию и логически выводить решения, преодолевая трудности, связанные с многоступенчатыми умозаключениями и необходимостью поддержания последовательности рассуждений.

Согласно результатам тестирования на SiT-Bench, модель Gemini-3-Flash демонстрирует точность в 59.46%, что превосходит показатели других протестированных языковых моделей и свидетельствует о значительном превосходстве в задачах текстового пространственного рассуждения. Этот результат указывает на более эффективную способность модели к пониманию и обработке информации, представленной в текстовом формате, требующей пространственного анализа и логических выводов, в сравнении с альтернативными решениями. Оценка производительности Gemini-3-Flash на SiT-Bench подтверждает её лидирующие позиции в данной области искусственного интеллекта.

Результаты тестирования на SiT-Bench показали, что средний показатель успешности для людей составляет 74.42%. Этот результат служит ориентиром для оценки текущего уровня развития искусственного интеллекта в области текстового пространственного мышления. Существующая разница между человеческой производительностью и результатами, демонстрируемыми современными языковыми моделями, указывает на значительный разрыв в возможностях построения и манипулирования когнитивными представлениями о пространстве, основанными исключительно на текстовых данных.

Анализ результатов SiT-Bench выявил существенный пробел в возможностях больших языковых моделей (LLM) — неспособность последовательно формировать и поддерживать когерентную ‘Мировую Модель’ на основе текстовых данных. Это проявляется в трудностях при решении задач, требующих понимания пространственных отношений и глобального контекста, даже при наличии базовых навыков обработки текста. LLM испытывают сложности с интеграцией информации из различных источников и поддержанием внутренней согласованности представления об описываемой среде, что ограничивает их способность к сложным умозаключениям и планированию действий на основе текстовых инструкций. В отличие от человека, способного к построению и обновлению ментальной модели мира, LLM часто демонстрируют непоследовательность и ошибки при обработке пространственной информации, представленной в текстовом формате.

За пределами текста: Влияние и перспективы развития воплощенного ИИ

Улучшение способности больших языковых моделей (LLM) к пространственному мышлению, оцениваемому с помощью теста SiT-Bench, является ключевым фактором для развития “воплощенного искусственного интеллекта”. Способность понимать и рассуждать о пространственных отношениях, описываемых в тексте, позволяет роботам и виртуальным агентам эффективно взаимодействовать с физическим миром, ориентироваться в нем и выполнять сложные задачи, требующие понимания окружающей среды. SiT-Bench предоставляет стандартизированный способ оценки этих навыков, выявляя слабые места существующих моделей и направляя исследования в сторону создания более надежных и интеллектуальных систем, способных не просто обрабатывать информацию, но и применять ее в реальных, физических условиях. Прогресс в данной области открывает путь к созданию роботов, способных самостоятельно планировать маршруты, манипулировать объектами и адаптироваться к меняющейся обстановке.

Для роботов и виртуальных агентов, функционирующих в реальном мире, способность понимать и интерпретировать пространственные отношения, описанные в тексте, является фундаментальной. Оценивая текстовые инструкции, такие как “поместите куб слева от цилиндра” или “пройдите через дверь и поверните направо”, система должна не только распознать эти указания, но и точно преобразовать их в последовательность действий, необходимых для выполнения задачи. Недостаточное понимание пространственных отношений приводит к ошибкам навигации, неверному манипулированию объектами и, в конечном итоге, к неспособности эффективно взаимодействовать с окружающей средой. Поэтому развитие у искусственного интеллекта способности к пространственному рассуждению из текста — это не просто теоретическая задача, а критически важный шаг на пути к созданию действительно автономных и полезных робототехнических систем.

Перспективные исследования в области искусственного интеллекта направлены на создание принципиально новых архитектур и методов обучения, позволяющих большим языковым моделям (LLM) формировать и эффективно использовать внутренние «модели мира». Эти модели представляют собой сложные когнитивные структуры, позволяющие системе понимать пространственные отношения, физические свойства объектов и динамику окружающей среды. Разработка таких моделей требует не просто обработки текстовой информации, но и способности к абстракции, обобщению и прогнозированию. Успешная реализация данной концепции откроет возможности для создания интеллектуальных агентов и роботов, способных к автономной навигации, планированию действий и эффективному взаимодействию с реальным миром, существенно расширив сферу применения искусственного интеллекта за пределы обработки естественного языка.

В конечном итоге, развитие способности искусственного интеллекта к полноценному пониманию и взаимодействию с окружающим миром открывает принципиально новые горизонты. Это не просто улучшение навигационных способностей роботов или виртуальных агентов, но и создание систем, способных к глубокому осмыслению контекста, предвидению последствий и адаптации к изменяющимся условиям. Такие системы смогут не только выполнять заданные задачи, но и самостоятельно формулировать цели, планировать действия и эффективно решать проблемы в реальном времени. Возможность строить и манипулировать внутренними “моделями мира” позволит искусственному интеллекту выходить за рамки простой обработки данных и приблизиться к уровню когнитивных способностей, свойственных человеку, что, в свою очередь, станет ключом к созданию действительно интеллектуальных и автономных систем.

Статья описывает SiT-Bench, новый бенчмарк для оценки пространственного интеллекта больших языковых моделей по текстовым описаниям. И это, разумеется, не изменит того факта, что рано или поздно кто-нибудь попробует использовать эту «пространственную осведомленность» для автоматической разметки схем и чертежей, а потом будет долго отлаживать ошибки. Как точно подметил Эндрю Ын: «Мы находимся в моменте, когда наибольшее количество времени тратится на сбор и очистку данных, а не на обучение моделей». И SiT-Bench, вероятно, станет еще одним источником «сырых» данных, требующих тщательной проверки, прежде чем кто-нибудь осмелится доверить LLM даже простую задачу, вроде определения, где на чертеже находится вентиль.

Что дальше?

Представленный анализ пространственного интеллекта больших языковых моделей, зафиксированный в SiT-Bench, обнажил ожидаемую пропасть между способностью к описанию и фактическим пониманием. Модели могут оперировать словами, обозначающими пространство, но это не гарантирует, что они действительно видят эти пространства. Это, конечно, не ново. Каждый «прорыв» в области ИИ — лишь отсрочка неизбежного технического долга. Продакшен всегда найдёт способ превратить элегантную теорию в клубок проблем.

SiT-Bench — ценный инструмент, но он измеряет лишь то, что можно сформулировать текстом. А реальный мир, как известно, полон невысказанных предположений и неявно подразумеваемых связей. Очевидно, что следующей ступенью станет интеграция с другими модальностями, но и это не панацея. Попытки «научить» машину видеть, опираясь исключительно на текстовые описания, напоминают попытки построить небоскрёб на болоте.

В конечном счете, вопрос не в том, насколько хорошо модели могут имитировать пространственное мышление, а в том, способны ли они к истинному пониманию. И пока что, похоже, мы не деплоим — мы отпускаем этих цифровых существ в дикую природу, надеясь, что они не сломают слишком много вещей. Скрам, как обычно, лишь убеждает нас в том, что хаос управляем.


Оригинал статьи: https://arxiv.org/pdf/2601.03590.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-08 16:39