Видят ли нейросети мир на прочность?

Автор: Денис Аветисян


Новый бенчмарк DreamHouse проверяет, насколько хорошо модели «зрение-язык» понимают физические законы и могут создавать реалистичные конструкции.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
helpНесмотря на получение идентичной визуальной обратной связи при построении А-образной конструкции, модели Gemini и Claude демонстрируют принципиально различные подходы к решению задачи: Gemini стремится к формированию общей контурной формы, постепенно уточняя детали, в то время как Claude, подобно опытному строителю, сначала создает несущий каркас, а затем накрывает его крышей, в то время как GPT-5, не уловив ключевое ограничение геометрии А-образной конструкции - роль скатов крыши как несущих стен - зацикливается на добавлении обычных стоек по периметру, не достигая валидного результата, что подчеркивает важность не только способности к визуальному сопоставлению, но и неявных архитектурных знаний.
helpНесмотря на получение идентичной визуальной обратной связи при построении А-образной конструкции, модели Gemini и Claude демонстрируют принципиально различные подходы к решению задачи: Gemini стремится к формированию общей контурной формы, постепенно уточняя детали, в то время как Claude, подобно опытному строителю, сначала создает несущий каркас, а затем накрывает его крышей, в то время как GPT-5, не уловив ключевое ограничение геометрии А-образной конструкции — роль скатов крыши как несущих стен — зацикливается на добавлении обычных стоек по периметру, не достигая валидного результата, что подчеркивает важность не только способности к визуальному сопоставлению, но и неявных архитектурных знаний.

Исследование демонстрирует, что способность к физическому моделированию отделена от визуального восприятия и сильно зависит от способа генерации.

Несмотря на успехи моделей «зрение-язык» в генерации визуально правдоподобных сцен, их способность к пониманию физических принципов и построению реально существующих объектов остается малоизученной. В работе ‘How Far Are Vision-Language Models from Constructing the Real World? A Benchmark for Physical Generative Reasoning’ представлен новый бенчмарк DreamHouse, предназначенный для оценки способности моделей генерировать физически валидные конструкции, в частности, деревянные каркасные дома, с учетом геометрических, структурных и нормативных требований. Эксперименты показали существенные пробелы в возможностях современных моделей в области физического обоснования генерации, что указывает на необходимость разработки новых подходов к оценке и обучению мультимодального интеллекта. Смогут ли будущие модели преодолеть разрыв между визуальной правдоподобностью и физической реализуемостью, и какие новые архитектуры потребуются для этого?


Временные Конструкции: Вызов для Разумных Систем

Современные модели, объединяющие компьютерное зрение и обработку естественного языка, демонстрируют трудности в решении задач, требующих глубокого понимания физических принципов и способности к композиционному мышлению. Эти модели часто испытывают затруднения при анализе и синтезе объектов, где необходимо учитывать сложные взаимосвязи между формой, структурой и функциональностью. Например, при проектировании конструкции, необходимо учитывать не только визуальные характеристики, но и законы физики, определяющие её устойчивость и прочность. Неспособность адекватно моделировать физические свойства и взаимосвязи ограничивает возможности этих систем в таких областях, как робототехника, проектирование и виртуальная реальность, подчеркивая необходимость разработки новых подходов к обучению моделей пониманию и применению физических знаний.

Успешное создание артефактов, будь то виртуальные конструкции или физические объекты, требует одновременного соблюдения целого ряда ограничений. Геометрические требования, определяющие форму и взаимное расположение элементов, должны сочетаться со структурными, гарантирующими прочность и устойчивость конструкции. Не менее важны и кодексальные ограничения — соответствие определенным нормам, стандартам безопасности или правилам проектирования. Сложность заключается в том, что эти ограничения зачастую взаимосвязаны и противоречивы, требуя от системы способности к комплексному анализу и поиску оптимального решения, удовлетворяющего всем условиям одновременно. Пренебрежение хотя бы одним из аспектов может привести к созданию нефункционального или небезопасного продукта, что делает эту задачу особенно сложной для современных систем искусственного интеллекта.

Существующие оценочные тесты для моделей, работающих с визуальной и языковой информацией, часто оказываются недостаточно сложными для адекватной проверки их способности к физическому рассуждению. В большинстве случаев, они не требуют одновременного учета геометрических, структурных и нормативных ограничений, необходимых для синтеза реальных объектов. Это приводит к ситуации, когда модели могут демонстрировать высокие результаты на упрощенных тестах, но терпят неудачу при столкновении с более сложными задачами, имитирующими реальный мир. Отсутствие комплексных критериев оценки замедляет прогресс в области, поскольку не позволяет точно определить слабые места существующих моделей и эффективно направлять дальнейшие исследования в сторону создания систем, способных к настоящему физическому пониманию и генерации.

Анализ ошибок GPT-5 при проектировании А-рамных конструкций показывает, что модель способна генерировать топологически верные схемы, но испытывает трудности с соблюдением границ конструкции, что приводит к выходу элементов за пределы допустимых соединений и нарушению целостности несущей схемы, что подтверждает гипотезу о разделении структурного мышления и пространственного ограничения.
Анализ ошибок GPT-5 при проектировании А-рамных конструкций показывает, что модель способна генерировать топологически верные схемы, но испытывает трудности с соблюдением границ конструкции, что приводит к выходу элементов за пределы допустимых соединений и нарушению целостности несущей схемы, что подтверждает гипотезу о разделении структурного мышления и пространственного ограничения.

DreamHouse: Контролируемая Среда для Физического Разума

Бенчмарк DreamHouse предоставляет контролируемую среду для оценки способностей к физическому генеративному рассуждению в области строительства жилых домов с использованием деревянных каркасов. Он позволяет проводить систематизированные тесты алгоритмов, моделирующих процессы проектирования и строительства, в условиях, где все параметры и ограничения четко определены. Это обеспечивает возможность точного измерения производительности и сравнения различных подходов к автоматизированному проектированию и планированию в строительстве, фокусируясь на физически обоснованных решениях и их влиянии на конструкцию и стабильность здания.

Бенчмарк DreamHouse использует чётко определённые правила и дискретные компоненты, присущие области строительства деревянных каркасных домов, что позволяет упростить задачу, не жертвуя при этом реалистичностью. В частности, строительные нормы и стандарты, а также использование отдельных, стандартизированных элементов конструкции, таких как балки, стойки и стропила, обеспечивают структурированный подход к генерации и оценке моделей. Это позволяет избежать неопределённости, связанной с непрерывными параметрами или сложными физическими взаимодействиями, и сосредоточиться на проверке логических рассуждений и соответствия проекта заданным требованиям и ограничениям. Такой подход способствует созданию контролируемой среды для оценки алгоритмов физического генеративного рассуждения.

В качестве инструмента для 3D-моделирования и визуализации в DreamHouse Benchmark используется программное обеспечение Blender. Это обеспечивает не только создание геометрических моделей домов, но и возможность их реалистичного отображения, что необходимо для оценки результатов генеративного процесса. Blender предоставляет визуальный интерфейс, позволяющий проводить инспекцию и анализ созданных структур, а также количественно оценивать их соответствие заданным параметрам и критериям. Возможности рендеринга Blender позволяют визуализировать сложные сцены с реалистичным освещением и текстурами, что упрощает процесс оценки качества и правдоподобия сгенерированных домов.

Визуализированные в Blender 13 архитектурных архетипов, представленные в виде каркасных моделей, определяют канонические параметры массы, типа крыши, планировки и этажности для каждой категории в наборе данных DreamHouse, который генерируется процедурно и содержит более 26 000 структур с использованием Blender Python API (bpy), что демонстрируется примером вызова размещения элементов в консоли.
Визуализированные в Blender 13 архитектурных архетипов, представленные в виде каркасных моделей, определяют канонические параметры массы, типа крыши, планировки и этажности для каждой категории в наборе данных DreamHouse, который генерируется процедурно и содержит более 26 000 структур с использованием Blender Python API (bpy), что демонстрируется примером вызова размещения элементов в консоли.

Протоколы Оценки: От Строгой Точности к Адаптивному Обучению

Для оценки способности моделей генерировать сценарии построения используются три различных протокола тестирования: Atomic, Reactive и Managed. Протокол Atomic требует создания полностью корректного сценария с первого раза, без ошибок. В отличие от него, протокол Reactive допускает повторную генерацию сценария в случае неудачи, что позволяет оценить способность модели к самокоррекции. Протокол Managed предполагает использование внешнего управления фазами построения, что вводит дополнительный уровень контроля и позволяет оценить взаимодействие модели с внешними инструментами. Каждый из этих протоколов варьируется по сложности и механизмам восстановления после ошибок, предоставляя комплексную оценку возможностей модели.

Протокол Atomic требует от агента генерации полностью корректных и безошибочных скриптов выполнения задачи. В отличие от него, протокол Reactive допускает повторную генерацию скрипта в случае обнаружения ошибки, что позволяет агенту исправлять собственные недочеты. Протокол Managed, в свою очередь, предполагает использование внешнего управления фазами выполнения задачи, делегируя часть контроля над процессом внешней системе и позволяя более структурированно подходить к решению сложных задач.

Анализ результатов, полученных при использовании протоколов Atomic, Reactive и Managed, демонстрирует, что различные подходы к генерации агентами проявляют специфические сильные и слабые стороны. Например, модели, успешно работающие в протоколе Atomic, требующем безошибочного выполнения задач, могут демонстрировать снижение эффективности в протоколе Reactive, где допускается повторная генерация при ошибках, поскольку их архитектура оптимизирована для безошибочного решения. И наоборот, модели, оптимизированные для протокола Reactive, могут показывать более высокую устойчивость к ошибкам, но уступать в скорости и точности выполнения задач в протоколе Atomic. Протокол Managed, использующий внешнее управление фазами, позволяет выявить способность моделей к адаптации к внешним ограничениям и управлению ресурсами, отличая их от моделей, полагающихся исключительно на внутренние механизмы генерации.

В данном примере формализации задачи, управляемой планировщиком, агент <span class="katex-eq" data-katex-display="false">\mathcal{A}</span> (VLM) итеративно генерирует действия <span class="katex-eq" data-katex-display="false">a_t</span> на основе визуальных данных <span class="katex-eq" data-katex-display="false">I_0</span> и обратной связи <span class="katex-eq" data-katex-display="false">f_{t-1}</span> для построения целевой структуры, при этом среда <span class="katex-eq" data-katex-display="false">\mathcal{E}</span> выполняет эти действия в Blender, а валидатор <span class="katex-eq" data-katex-display="false">\mathcal{V}</span> предоставляет структурированную диагностическую обратную связь <span class="katex-eq" data-katex-display="false">f_t</span>, используемую для последующих итераций, а при неудаче агент повторяет попытку с той же сцены без сброса контекста.
В данном примере формализации задачи, управляемой планировщиком, агент \mathcal{A} (VLM) итеративно генерирует действия a_t на основе визуальных данных I_0 и обратной связи f_{t-1} для построения целевой структуры, при этом среда \mathcal{E} выполняет эти действия в Blender, а валидатор \mathcal{V} предоставляет структурированную диагностическую обратную связь f_t, используемую для последующих итераций, а при неудаче агент повторяет попытку с той же сцены без сброса контекста.

Структурная Целостность: Гарантии Безопасности и Соответствия Нормам

Комплекс структурной валидации состоит из 10 детерминированных тестов, охватывающих ключевые аспекты прочности и безопасности генерируемых конструкций. Эти тесты включают в себя проверку путей передачи нагрузки (load paths), ограничений по пролетам (span limits), надежности соединений элементов (member connectivity), а также соответствие требованиям Международного жилищного кодекса (IRC Compliance). Данные тесты позволяют оценить, насколько сгенерированная структура способна выдерживать расчетные нагрузки и соответствует ли установленным нормам безопасности и строительства.

Соблюдение Международного Жилищного Кодекса (IRC) является важнейшим требованием для обеспечения безопасности и законности генерируемых строительных конструкций. IRC устанавливает минимальные стандарты для проектирования, строительства и эксплуатации жилых зданий, охватывая аспекты, такие как несущая способность, пожарная безопасность, санитария и энергоэффективность. Соответствие этим нормам гарантирует, что создаваемые конструкции соответствуют установленным требованиям безопасности и пригодны для проживания, что необходимо для получения разрешений на строительство и предотвращения потенциальных юридических проблем. Несоблюдение IRC может привести к отказу в выдаче разрешений, штрафам и необходимости дорогостоящего переделывания конструкций.

Несмотря на то, что протоколы Planner-Atomic и Planner-Managed демонстрируют высокие показатели успешной проверки на структурную целостность — 79.2% и 78.5% соответственно — максимальный процент успешного соединения элементов (peak joint pass rate), который учитывает как структурную достоверность, так и визуальное соответствие, остается на уровне 7.1%. Это указывает на то, что хотя общая структурная схема часто соответствует требованиям, точное и корректное соединение отдельных элементов конструкции является узким местом, ограничивающим общую производительность системы и требующим дополнительной оптимизации.

Комплекс структурной валидации включает в себя десять тестов, охватывающих соответствие нормам IRC, физику конструкции, геометрическую целостность и детализацию уровня LoD 350 для обеспечения надежности и соответствия строительных элементов.
Комплекс структурной валидации включает в себя десять тестов, охватывающих соответствие нормам IRC, физику конструкции, геометрическую целостность и детализацию уровня LoD 350 для обеспечения надежности и соответствия строительных элементов.

Путь к Улучшенному Разуму: Итерации, Код и Структурированные Подходы

Итеративное уточнение представляет собой подход, позволяющий моделям пересматривать созданные структуры, опираясь на визуальную обратную связь, при этом сохраняя их структурную целостность. Этот метод выходит за рамки традиционных генеративных возможностей, позволяя не просто создавать, но и совершенствовать объекты, адаптируясь к заданным критериям и устраняя недостатки. Модели, использующие итеративное уточнение, способны анализировать сгенерированные изображения, выявлять несоответствия и вносить коррективы, не нарушая при этом общую логику и устойчивость конструкции. Такой процесс, подобно работе опытного архитектора, стремящегося к идеалу, значительно повышает качество и реалистичность генерируемых объектов, открывая новые перспективы в области компьютерного моделирования и дизайна.

В ходе исследований, направленных на улучшение генеративных моделей, система Claude продемонстрировала наибольший прирост в визуальной оценке — на 0.033 балла, что свидетельствует о ее способности к эффективной доработке изображений на основе визуальной обратной связи. Параллельно, модель GPT-5 выделилась высоким уровнем сохранения структурной целостности — 78.1%, указывая на ее надежность в поддержании логической связности генерируемых структур. Данные результаты подчеркивают, что итеративная доработка является перспективным направлением для развития генеративных моделей, позволяя не только повысить качество визуального представления, но и обеспечить устойчивость и надежность создаваемых структур.

Разработанный комплекс тестов DreamHouse представляет собой надежную платформу для создания и оценки методов, направленных на улучшение физического мышления у искусственного интеллекта. Данный бенчмарк позволяет исследователям испытывать и совершенствовать алгоритмы, требующие понимания пространственных отношений, гравитации и других физических принципов. Благодаря своей структуре и сложности, DreamHouse способствует развитию инноваций в области генерации и анализа физически правдоподобных сцен, предоставляя возможность объективно сравнивать различные подходы и стимулируя дальнейшие исследования в этой перспективной области. Платформа обеспечивает возможность оценивать не только способность модели генерировать визуально правдоподобные объекты, но и её умение создавать структуры, соответствующие законам физики, что является важным шагом на пути к созданию более интеллектуальных и надежных систем искусственного интеллекта.

Подход, известный как структурированная генерация на основе кода, представляет собой перспективное направление в развитии сложных генеративных задач. Вместо непосредственного формирования результата, система оперирует с промежуточным кодом, описывающим структуру генерируемого объекта. Это позволяет существенно повысить надежность и интерпретируемость процесса, поскольку каждая стадия генерации опирается на четко определенные правила и логику, заложенные в коде. В отличие от “черного ящика”, характерного для многих современных генеративных моделей, данный подход обеспечивает возможность отслеживания и контроля над процессом создания, что особенно важно для приложений, требующих высокой степени точности и предсказуемости. Такой метод позволяет не только создавать более качественные и корректные результаты, но и упрощает отладку и внесение изменений в процесс генерации, открывая новые возможности для автоматизации и оптимизации сложных систем.

В ходе итеративного улучшения с визуальной обратной связью модель Claude успешно корректирует ориентацию ската крыши в стиле
В ходе итеративного улучшения с визуальной обратной связью модель Claude успешно корректирует ориентацию ската крыши в стиле «barn» (амбар), демонстрируя способность к самокоррекции, в то время как GPT-5 застревает в гибридной конфигурации, а Gemini практически не реагирует на визуальные подсказки, что подчеркивает различия в способности моделей использовать обратную связь для улучшения результатов.

Исследование, представленное в статье, подчеркивает разрыв между визуальным восприятием и физическим рассуждением, демонстрируя, что модели, хорошо справляющиеся с визуальными задачами, часто терпят неудачу при построении физически достоверных структур. Этот процесс напоминает старение любой системы — даже кажущаяся идеальной на первый взгляд конструкция может оказаться неустойчивой под давлением реальности. Как отмечал Блез Паскаль: «Все великие вещи требуют времени». Подобно тому, как время испытывает прочность любой системы, так и DreamHouse Benchmark проверяет способность моделей к генеративному рассуждению, выявляя слабые места в понимании физических принципов, лежащих в основе построения устойчивых структур. Этот процесс подобен эрозии, выявляющей скрытые дефекты.

Куда ведут эти конструкции?

Представленный анализ возможностей языково-визуальных моделей в области физического конструирования выявляет не столько границы их способностей, сколько природу самих ошибок. DreamHouse, как и любая среда, предоставляет пространство для проявления несовершенства, для провалов, которые, в конечном счете, определяют траекторию развития системы. Успех в генерации структур, соответствующих законам физики, оказывается отделен от простого визуального восприятия — это не вопрос «видения», а вопрос последовательного применения правил в условиях неопределенности.

Очевидно, что протокол генерации играет критическую роль. Недостаточно создать модель, способную «видеть» устойчивую конструкцию; необходимо научить её строить её, шаг за шагом, учитывая все ограничения и потенциальные ошибки. Проверка на соответствие строительным нормам — это лишь один из уровней валидации, и вполне вероятно, что более сложные сценарии потребуют учета неявных правил и контекстуальных зависимостей, которые пока остаются за пределами внимания.

Будущие исследования должны сосредоточиться не на достижении абсолютной точности, а на создании систем, способных к самокоррекции и адаптации. Все системы стареют, и неизбежно будут возникать дефекты. Вопрос лишь в том, смогут ли они достойно справляться с этими вызовами, извлекая уроки из каждого провала и постепенно приближаясь к более надежным и устойчивым конструкциям. Время — не метрика, а среда, в которой система учится на своих ошибках.


Оригинал статьи: https://arxiv.org/pdf/2603.24866.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-28 04:22