Автор: Денис Аветисян
Новое исследование показывает, как большие языковые и мультимодальные модели обрабатывают информацию о вращении объектов, даже если не имеют доступа к визуальным данным.
Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.
Купить акции "голубых фишек"
Работа посвящена анализу способности языковых моделей к пониманию пространственных преобразований и выявлению факторов, влияющих на их эффективность в задачах, связанных с вращением объектов.
Несмотря на растущий интерес к пространственному интеллекту, вопрос о том, способны ли языковые модели понимать изменение перспективы без визуальной информации, остается открытым. В работе ‘How Do LLMs and VLMs Understand Viewpoint Rotation Without Vision? An Interpretability Study’ исследуется способность больших языковых и мультимодальных моделей к пониманию поворота перспективы исключительно на основе текстовых описаний. Результаты показывают, что существующие модели демонстрируют низкую производительность в решении данной задачи, хотя человек легко справляется с ней, что указывает на существенный разрыв в возможностях. Какие внутренние механизмы ограничивают способность моделей к логическому выводу о пространственных изменениях и возможно ли улучшить их понимание путем целенаправленной оптимизации ключевых параметров внимания?
Пространственное мышление: Вызов вращающейся перспективы
Понимание изменения положения и ориентации после серии вращений — так называемое понимание вращения точки зрения (VRU) — играет ключевую роль в развитии воплощенного искусственного интеллекта. Способность точно определять свое местоположение и направление в пространстве после нескольких последовательных поворотов необходима для эффективного взаимодействия роботов и виртуальных агентов с окружающим миром. Без адекватного VRU, системы искусственного интеллекта сталкиваются с трудностями при навигации, манипулировании объектами и выполнении задач, требующих пространственного мышления. Таким образом, совершенствование алгоритмов, позволяющих машинам надежно оценивать изменения в пространственной ориентации, является важнейшим шагом к созданию действительно автономных и интеллектуальных систем.
Современные большие языковые модели (LLM) демонстрируют заметные трудности при решении задач, связанных с определением положения и ориентации объекта после серии вращений — так называемое композиционное многошаговое понимание вращения (VRU). Согласно результатам тестирования на датасете VRUBench, точность LLM в данной области составляет лишь около 60%, что значительно ниже показателей, демонстрируемых человеком. Данный разрыв в производительности указывает на существенные ограничения в способности моделей к пространственному мышлению и требует разработки новых подходов к обучению, способных обеспечить более надежное понимание и воспроизведение сложных пространственных преобразований.
Результаты тестирования на наборе данных VRUBench продемонстрировали поразительную способность человека к пространственному мышлению: люди безошибочно решают задачи, связанные с определением положения и ориентации после серии вращений. Этот абсолютный показатель точности резко контрастирует с текущими возможностями современных больших языковых моделей, которые демонстрируют лишь около 60% правильных ответов. Такое существенное расхождение подчеркивает значительный пробел в искусственном интеллекте в области пространственного понимания и ставит задачу разработки более совершенных алгоритмов, способных воспроизвести человеческую интуицию в отношении трехмерного пространства и вращательных преобразований.
Усиление VRU: Методы улучшения пространственного рассуждения
Метод Chain-of-Thought (CoT) предполагает использование промптов, стимулирующих большие языковые модели (LLM) к последовательному, поэтапному рассуждению при решении задач виртуальной реальности (VRU). Вместо прямого ответа, модель генерирует промежуточные шаги логического вывода, что позволяет ей более эффективно справляться со сложными задачами, требующими пространственного мышления и анализа. Этот подход позволяет LLM разложить сложные проблемы на более мелкие, управляемые части, что улучшает точность и надежность результатов в VRU.
Селективная донастройка (Selective Fine-tuning) представляет собой процесс уточнения параметров предварительно обученной языковой модели, направленный на повышение её производительности и эффективности в задачах виртуальной реальности (VRU). В отличие от полной переподготовки модели, селективная донастройка фокусируется на корректировке лишь части параметров, что позволяет снизить вычислительные затраты и время обучения. Этот подход особенно эффективен для адаптации модели к специфическим требованиям VRU, таким как обработка пространственных данных и понимание визуальных сцен, позволяя добиться значительного улучшения метрик производительности при меньших ресурсах, чем при полной переподготовке.
Визуально-языковые модели (VLM), обученные на данных, включающих изображения, демонстрируют улучшенное пространственное восприятие и превосходят языковые модели (LLM) в задачах VRU. Согласно текущим данным, модель Qwen3-VL является лидером (SOTA) с точностью около 60%, в то время как Qwen2.5-VL-7B достигает 58.6% точности. Для сравнения, модель LLama2-7B-chat показывает значительно более низкий результат — всего 34.6% в тех же задачах, что подтверждает преимущество VLMs в обработке пространственной информации.
Расшифровка логики модели: Интерпретация возможностей VRU
Анализ зондирования по слоям показал, что модели кодируют информацию об абсолютной ориентации на разных глубинах нейронной сети. В частности, обнаружено, что определенные слои играют ключевую роль в успешном выполнении задач VRU (Visual Reasoning Understanding). Более глубокие слои, как правило, демонстрируют более сложное представление информации об ориентации, в то время как более ранние слои фокусируются на базовых признаках, необходимых для определения положения объекта в пространстве. Это указывает на иерархическую структуру обработки информации, где слои последовательно извлекают и обобщают признаки, необходимые для понимания абсолютной ориентации.
Метод Path Patching, представляющий собой способ каузального вмешательства, позволяет выявить ключевые Attention Heads, ответственные за успешное выполнение задачи VRU (Visual Reasoning Understanding). Суть метода заключается в целенаправленном изменении (patching) активности определенных Attention Heads и последующей оценке влияния этих изменений на итоговый результат. Анализ, проведенный с использованием Path Patching, позволяет определить, какие именно Attention Heads вносят наибольший вклад в успешное решение задачи, что, в свою очередь, дает возможность целенаправленной оптимизации модели путем фокусировки на улучшении работы этих критически важных компонентов. Данный подход обеспечивает более эффективный и точный процесс оптимизации по сравнению с общими методами, поскольку позволяет напрямую воздействовать на механизмы, определяющие способность модели к визуальному рассуждению.
Анализ работы модели выявил существование так называемой “Неизвестной Головки” (Unknown Head) в механизме внимания, демонстрирующей осторожное поведение при формировании предсказаний. Данная головка характеризуется сниженной уверенностью в ответах по сравнению с другими головками, особенно в ситуациях, когда стандартные механизмы предсказания могут приводить к избыточной уверенности в неверных ответах. Это указывает на потенциальную функцию, направленную на смягчение эффекта переоценки вероятности и повышение надежности модели в сложных или неоднозначных сценариях. Наблюдаемое поведение предполагает, что “Неизвестная Головка” может служить своего рода механизмом самоконтроля, ограничивающим чрезмерную уверенность модели в своих предсказаниях.
Перспективы осторожного рассуждения и за его пределами
Обучение с подкреплением, направленное на согласование поведения модели с заданными критериями, демонстрирует перспективный подход к повышению осторожности в так называемой «неизвестной голове» — участке нейронной сети, отвечающем за принятие решений в новых, неизученных ситуациях. Оно позволяет машине не просто выдать ответ, но и оценить степень своей уверенности в нём — особенно важно при решении задач визуально-логического рассуждения (VRU). В ходе исследований было установлено, что целенаправленное влияние на поведение модели посредством обучения с подкреплением способно значительно снизить вероятность совершения ошибок в сложных визуальных задачах, приближая её к уровню человеческой точности и повышая надежность принимаемых решений в условиях неопределенности.
Исследование взаимодействия между «головками внимания» и послойным кодированием выявило сложную взаимосвязь между архитектурой нейронной сети и её способностью к пространственному мышлению. Анализ показал, что различные «головки внимания» специализируются на обработке информации о пространственных отношениях, причем их вклад варьируется в зависимости от глубины слоя сети. Более ранние слои, как правило, фокусируются на базовых геометрических признаках, в то время как более поздние слои интегрируют эту информацию для формирования более сложных представлений о пространстве. Подобная иерархическая организация позволяет модели эффективно обрабатывать и интерпретировать пространственные данные, демонстрируя, что архитектурные особенности напрямую влияют на способность к логическому умозаключению и решению задач, требующих понимания пространственных взаимосвязей.
Разработанный набор данных VRUBench представляет собой стандартизированную платформу, предназначенную для оценки и дальнейшего развития способностей к визуальному рассуждению (VRU) у искусственных интеллектов. Этот ресурс позволяет исследователям последовательно тестировать и сравнивать различные модели, выявляя их сильные и слабые стороны в задачах, требующих пространственного понимания. Анализ результатов, полученных на VRUBench, показал существенный разрыв в производительности между современными системами искусственного интеллекта и человеческим уровнем точности — модели показывают результат в 100%, в то время как человек демонстрирует более высокую надежность в решении аналогичных задач. Данный факт подчеркивает необходимость дальнейших исследований и разработки новых алгоритмов, способных достичь и превзойти человеческие возможности в области визуального рассуждения.
Исследование показывает, что даже лишенные визуального ввода, большие языковые модели пытаются осмыслить вращение точки зрения, хотя и с трудом. Это напоминает о хрупкости систем, которые строятся на абстракциях, а не на глубоком понимании реальности. Как бы ни были совершенны алгоритмы, они всегда будут подвержены ошибкам, ведь каждое архитектурное решение — это своего рода пророчество о будущей неисправности. Поль Эрдеш однажды заметил: «В математике нет трава, только бесконечные луга». Точно так же и в мире искусственного интеллекта — текущие модели лишь первый шаг на бесконечном пути к истинному пониманию пространственного мышления, и задача интерпретируемости лишь подчеркивает сложность этого пути.
Что Дальше?
Исследование демонстрирует, что даже модели, способные обрабатывать визуальную информацию, испытывают затруднения с пониманием вращения точки зрения исключительно на основе текстовых данных. Это не столько провал алгоритмов, сколько закономерное проявление энтропии в сложных системах. Разделение модальностей — текста и изображения — не освобождает от общей судьбы зависимости: каждый уровень абстракции добавляет новые векторы отказа, новые точки сингулярности. Попытки улучшить производительность за счет «рассуждений» кажутся лишь отсрочкой неизбежного — усложнение системы не гарантирует её устойчивость.
Вместо погони за идеальным представлением пространства, вероятно, стоит обратить внимание на природу самих ошибок. Неспособность модели к VRU — это не просто неточность, а симптом более глубокой проблемы: модели строятся на принципах статистической корреляции, а не на истинном понимании причинно-следственных связей. Каждая архитектурная оптимизация — это пророчество о будущем сбое, замаскированное под прогрессом.
Будущие исследования, вероятно, столкнутся с необходимостью разработки принципиально новых подходов к представлению и обработке информации, основанных не на увеличении масштаба, а на принципах самоорганизации и адаптации. Системы не строятся, они вырастают. Их устойчивость определяется не архитектурой, а способностью к восстановлению после неизбежных сбоев.
Оригинал статьи: https://arxiv.org/pdf/2604.15294.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Калькулятор глубины резкости. Как рассчитать ГРИП.
- vivo iQOO Z10 Turbo+ ОБЗОР: скоростная зарядка, плавный интерфейс, объёмный накопитель
- Microsoft Edge позволяет воспроизводить YouTube в фоновом режиме на Android — подписка Premium не требуется.
- Нефть против «Зомби»: Что ждет инвесторов на фоне продления санкционной лицензии и проблем АФК «Система»? (19.04.2026 21:32)
- AMD разворачивает «штаб-квартиру» для мониторинга нашего веб-сайта на предмет утечек.
- Как правильно фотографировать пейзаж
- CSAM используя стримера ‘Lacari’ пойман с поличным … Microsoft Notepad — опубликовал извинения и отрицание после получения перманентного бана.
- Xiaomi Redmi K90 Pro Max ОБЗОР: беспроводная зарядка, много памяти, огромный накопитель
- Итоги недели: «ФосАгро» и «Акрон» в минусе, ДВМП лидирует – что ждать рынку? (29.03.2026 01:32)
- Лучшие смартфоны. Что купить в апреле 2026.
2026-04-18 17:11