Искусственный интеллект моделирует будущее: от текста к 3D-моделям

Автор: Денис Аветисян

Новый подход объединяет возможности больших языковых моделей с точным представлением геометрии для создания детализированных CAD-моделей по текстовому описанию.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

FutureCAD объединяет генерацию программ на основе больших языковых моделей и привязку B-Rep примитивов к тексту, что позволяет осуществлять CAD-моделирование, основанное на признаках, и создавать высокоточные CAD-модели.

В статье представлена система FutureCAD, использующая генерацию программ и привязку к базовым элементам Boundary Representation для высокоточного создания CAD-моделей.

Несмотря на значительный прогресс в области автоматизированного проектирования (CAD), существующие подходы, как параметрическое моделирование, так и прямой синтез Boundary Representation (B-Rep), сталкиваются с трудностями при создании сложных промышленных изделий. В работе ‘Towards High-Fidelity CAD Generation via LLM-Driven Program Generation and Text-Based B-Rep Primitive Grounding’ представлена система FutureCAD, объединяющая большие языковые модели (LLM) и механизм привязки B-Rep к тексту для генерации высокоточных CAD-моделей. FutureCAD генерирует исполняемые скрипты CadQuery, используя LLM для определения геометрических примитивов на естественном языке, которые затем преобразуются в B-Rep. Может ли подобный подход, сочетающий генерацию программного кода и интеллектуальный выбор геометрических примитивов, кардинально изменить процесс разработки промышленных изделий?

От Текста к Модели: Вызовы Автоматизированного CAD-Проектирования

Традиционные процессы создания CAD-моделей характеризуются значительной трудоемкостью и требуют высокой квалификации специалистов, что существенно замедляет этапы быстрого прототипирования и итераций дизайна. Создание даже относительно простых объектов часто требует многочасовой ручной работы в специализированном программном обеспечении, ограничивая возможности быстрого внесения изменений и экспериментов с различными концепциями. Эта сложность становится критическим препятствием для малых предприятий и индивидуальных дизайнеров, лишенных доступа к дорогостоящим ресурсам и экспертам. В результате, инновации в сфере проектирования часто задерживаются из-за неэффективности существующих рабочих процессов и высоких барьеров входа.

Появление технологии преобразования текста в CAD-модель открывает перспективы для демократизации процесса проектирования, позволяя людям без специализированных навыков создавать сложные трехмерные объекты. Однако, существующие методы сталкиваются с серьезными трудностями в обеспечении геометрической точности и семантической корректности создаваемых моделей. Часто, генерируемые объекты содержат неточности в форме или не соответствуют смысловому содержанию исходного текстового описания. Это связано с тем, что интерпретация естественного языка и точное воссоздание геометрических форм требуют продвинутых алгоритмов искусственного интеллекта, способных понимать нюансы и обеспечивать соответствие между описанием и результатом. Достижение высокого уровня точности и семантической согласованности остается ключевой задачей для дальнейшего развития этой многообещающей области.

Создание сложных и корректных CAD-моделей непосредственно из текстовых описаний представляет собой значительную проблему для современных систем искусственного интеллекта. Данное затруднение обусловлено необходимостью не только понимания семантики языка, но и точного преобразования абстрактных понятий в геометрические формы, соблюдая при этом правила проектирования и обеспечивая валидность модели. В подтверждение этого, исследователи представили новый набор данных, включающий более 140 тысяч реальных CAD-моделей, который используется для строгой оценки эффективности различных алгоритмов и выявления их слабых мест. Этот обширный ресурс позволяет проводить объективное сравнение методов и стимулирует дальнейшие исследования в области автоматизированного проектирования на основе естественного языка.

Наш метод превосходит существующие подходы в генерации CAD-моделей, демонстрируя лучшие результаты по метрикам G-F1 (для команд генерации) и R-F1 (для команд уточнения) на наборе данных FutureCAD и обобщаясь на тестовый набор Fusion360, при этом мы расширили пространство команд для поддержки расширенных функций и повторно обучили модель.

FutureCAD: Новый Подход к Интеллектуальному CAD-Моделированию

FutureCAD представляет собой новую архитектуру, использующую возможности генеративных больших языковых моделей (LLM) для автоматического создания исполняемых CAD-программ на основе текстовых описаний. Вместо традиционного графического интерфейса, пользователь формулирует задачу моделирования в текстовом виде, например, «создать цилиндр диаметром 50 мм и высотой 100 мм». LLM обрабатывает этот запрос и генерирует соответствующий код, который непосредственно управляет созданием геометрии в CAD-системе. Этот подход позволяет автоматизировать процесс проектирования, упростить взаимодействие с CAD-программами и расширить возможности автоматического создания сложных моделей на основе семантического понимания текстового ввода.

В основе FutureCAD лежит Boundary Representation Grounding Transformer (BRepGround) — трансформер, предназначенный для сопоставления текстовых запросов с соответствующими примитивами Boundary Representation (B-Rep). BRepGround обеспечивает трансляцию естественного языка в геометрические элементы, что позволяет создавать CAD-модели на основе текстовых описаний. Ключевой особенностью является гарантия геометрической корректности, достигаемая за счет привязки к B-Rep, который представляет собой стандартное и надежное представление геометрии в CAD-системах. Этот подход позволяет избежать создания геометрически невалидных моделей и обеспечивает их целостность и пригодность для дальнейшей обработки и производства.

Интеграция больших языковых моделей (LLM) и Boundary Representation Grounding Transformer (BRepGround) позволяет создавать сложные CAD-модели с повышенной точностью и семантическим пониманием. Данный подход обеспечивает генерацию геометрически корректных представлений, поскольку BRepGround преобразует текстовые запросы в соответствующие примитивы Boundary Representation (B-Rep). В результате, система демонстрирует передовые показатели производительности на стандартных наборах данных, как для моделей, соответствующих обучающей выборке (in-distribution), так и для новых, ранее не встречавшихся (out-of-distribution), подтверждая свою обобщающую способность и эффективность в различных сценариях моделирования.

FutureCAD - это комплексная система, использующая большие языковые модели (LLM) для параметрического CAD-моделирования, где LLM генерирует текстовые запросы к <span class="katex-eq" data-katex-display="false">BRepGround</span> для поиска примитивов, необходимых для выполнения операций CAD-ядра, а обучение происходит в два этапа: сначала контролируемая тонкая настройка (SFT), затем обучение с подкреплением (RL) с использованием алгоритма GSPO и метрик на основе расстояния Чемфера. — FutureCAD — это комплексная система, использующая большие языковые модели (LLM) для параметрического CAD-моделирования, где LLM генерирует текстовые запросы к $BRepGround$ для поиска примитивов, необходимых для выполнения операций CAD-ядра, а обучение происходит в два этапа: сначала контролируемая тонкая настройка (SFT), затем обучение с подкреплением (RL) с использованием алгоритма GSPO и метрик на основе расстояния Чемфера.

Основы Геометрии: Внутренняя Механика BRepGround

В основе BRepGround лежит графовая нейронная сеть (GNN), используемая для распространения контекстно-зависимых векторных представлений (embeddings) между гранями и ребрами представления границ (B-Rep). Данная сеть обрабатывает B-Rep как граф, где грани и ребра выступают в качестве узлов, а их связность определяет структуру графа. Процесс распространения embeddings позволяет GNN учитывать геометрический контекст каждого элемента B-Rep, агрегируя информацию от соседних элементов и формируя более полное представление о геометрии. Это обеспечивает эффективное кодирование геометрической информации и ее использование для последующего анализа и генерации CAD-моделей.

Сеть UV-Net является ключевым компонентом системы и используется для извлечения геометрических вложений из граней и ребер Boundary Representation (B-Rep). Эти вложения представляют собой векторные представления, кодирующие информацию о форме, размере и расположении геометрических элементов. Извлеченные геометрические признаки, полученные посредством UV-Net, служат основой для последующей обработки и анализа B-Rep, обеспечивая возможность точной интерпретации и манипулирования геометрическими данными. В частности, UV-Net позволяет системе эффективно представлять сложные геометрические формы в компактном виде, что критически важно для задач генерации и редактирования CAD-моделей.

Процесс формирования векторных представлений (embeddings) позволяет BRepGround точно интерпретировать текстовые описания и сопоставлять их с соответствующими геометрическими примитивами. Эта процедура критически важна для обеспечения генерации корректных CAD-моделей, поскольку позволяет системе установить соответствие между семантическим значением текстового запроса и конкретными геометрическими элементами, необходимыми для построения трехмерной модели. Точность сопоставления напрямую влияет на валидность и функциональность генерируемой CAD-модели, предотвращая создание геометрически некорректных или нереализуемых конструкций.

Архитектура BRepGround включает в себя кодировщик B-Rep, извлекающий признаки граней и ребер и формирующий примитивные вложения с помощью GNN и адаптивного слоя, текстовый кодировщик на основе BERT для обработки запроса и модуль объединения, использующий само- и кросс-внимание для классификации целевых примитивов.

Совершенствование Проекта: Обучение и Оптимизация в FutureCAD

Для повышения обобщающей способности и достоверности генерируемых программ, FutureCAD использует обучение с подкреплением (Reinforcement Learning) на этапе тренировки. Этот подход позволяет системе самостоятельно совершенствовать процесс создания программ, исследуя различные варианты и получая вознаграждение за успешные действия. Вместо явного программирования, система учится посредством взаимодействия со средой, адаптируясь к новым задачам и улучшая свои результаты. Обучение с подкреплением позволяет FutureCAD не просто воспроизводить известные решения, но и находить оптимальные стратегии для генерации и уточнения программного кода, что способствует созданию более надежных и универсальных инструментов автоматизированного проектирования.

В основе совершенствования алгоритма FutureCAD лежит оптимизация политики с помощью алгоритма Group Sequence Policy Optimization (GSPO). Этот метод машинного обучения с подкреплением (RL) направлен на максимизацию вознаграждения, основываясь не на отдельных действиях, а на последовательности действий в целом. GSPO позволяет учитывать долгосрочные последствия каждого шага, что особенно важно при генерации и уточнении сложных CAD-моделей. В отличие от традиционных RL-алгоритмов, GSPO группирует действия в последовательности, что повышает эффективность обучения и позволяет модели лучше адаптироваться к разнообразным задачам. Такой подход обеспечивает более стабильное и предсказуемое поведение системы, приводя к значительному улучшению результатов, отраженному в метриках G-F1 и R-F1, представленных в таблице 1.

В процессе обучения FutureCAD ключевую роль играет метрика расстояния Шамфера (Chamfer Distance, CD), выступающая в качестве сигнала вознаграждения. Этот показатель определяет степень соответствия сгенерированных или доработанных геометрических форм желаемым объектам, направляя алгоритм к созданию более точных и реалистичных моделей. Использование CD в качестве функции вознаграждения позволило достичь передовых результатов в задачах как генерации (G-F1), так и уточнения (R-F1), что подтверждается данными, представленными в Таблице 1. Фактически, оптимизация на основе расстояния Шамфера способствует формированию эффективной стратегии обучения, позволяя FutureCAD превосходить существующие аналоги в качестве создаваемых моделей и точности их доработки.

Исследование демонстрирует переход к парадигме FutureCAD, где генерация CAD-моделей осуществляется посредством синергии больших языковых моделей и привязки к границам представления (B-Rep). Этот подход позволяет создавать высокоточные модели, сочетая генерацию программного кода с выбором примитивов B-Rep. Как однажды заметил Ян Лекун: «Машинное обучение — это программирование, где вы не пишете код, а создаете данные, из которых машина учится». Данное утверждение находит отражение в работе, поскольку FutureCAD использует LLM для генерации программ, управляющих созданием CAD-моделей, тем самым смещая акцент с ручного кодирования на обучение модели на данных и последующее создание программного обеспечения.

Что Дальше?

Представленная работа, несмотря на кажущуюся элегантность интеграции больших языковых моделей и параметрического моделирования, лишь приоткрывает завесу над истинными сложностями автоматизированного проектирования. Построение “высокоточных” CAD-моделей — это не просто генерация синтаксически верного кода; это, прежде всего, обеспечение семантической корректности и топологической непротиворечивости. Очевидно, что текущие подходы, полагающиеся на статистические закономерности, далеки от формальной верификации и доказательства корректности создаваемых моделей.

Будущие исследования должны быть сосредоточены не на увеличении размера языковых моделей, а на разработке формальных методов, гарантирующих непротиворечивость генерируемого кода и соответствие моделей требованиям физической реализуемости. В частности, необходимо исследовать возможности интеграции формальной логики и теории типов в процесс генерации CAD-моделей. Иначе, мы рискуем создать лишь иллюзию автоматизации, где “работает на тестах” остается единственным критерием истины.

Истинная проблема заключается не в том, чтобы научить машину “рисовать” по текстовому описанию, а в том, чтобы создать систему, способную самостоятельно выводить и доказывать корректность проектируемых решений. Элегантность алгоритма не зависит от языка реализации, важна только непротиворечивость. И пока эта непротиворечивость не доказана, все остальные достижения — лишь временные удобства.

Оригинал статьи: https://arxiv.org/pdf/2603.11831.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-14 20:24