Роботизированная хирургия: обучение с учетом пространственной геометрии

Автор: Денис Аветисян


Новый подход позволяет хирургическим роботам точнее и надежнее выполнять сложные манипуляции, используя трехмерное понимание операционного поля.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Геометрический трансформатор, предварительно обученный на наборе данных Surgical3D для извлечения устойчивых трехмерных представлений из эндоскопических изображений, впоследствии фиксируется, а оставшиеся компоненты обучаются формированию стратегий хирургических манипуляций, используя пространственные априорные знания, полученные из демонстраций, при этом многоуровневый коннектор пространственных признаков (MSFC) агрегирует трехмерные представления из различных блоков трансформатора и сопоставляет их с пространством действий робота, позволяя декодеру, ориентированному на эндоскоп, генерировать относительные действия робота в эндоскопической системе координат, опираясь на усвоенные трехмерные пространственные априорные знания.
Геометрический трансформатор, предварительно обученный на наборе данных Surgical3D для извлечения устойчивых трехмерных представлений из эндоскопических изображений, впоследствии фиксируется, а оставшиеся компоненты обучаются формированию стратегий хирургических манипуляций, используя пространственные априорные знания, полученные из демонстраций, при этом многоуровневый коннектор пространственных признаков (MSFC) агрегирует трехмерные представления из различных блоков трансформатора и сопоставляет их с пространством действий робота, позволяя декодеру, ориентированному на эндоскоп, генерировать относительные действия робота в эндоскопической системе координат, опираясь на усвоенные трехмерные пространственные априорные знания.

В статье представлена модель Spatial Surgical Transformer (SST), использующая геометрию и многоуровневые пространственные признаки для обучения хирургических роботов.

Обеспечение надежного трехмерного восприятия остается сложной задачей в хирургической робототехнике, где точность и деликатность манипуляций критически важны. В работе ‘Learning Surgical Robotic Manipulation with 3D Spatial Priors’ представлен Spatial Surgical Transformer (SST) — эндоскопически-ориентированная визуомоторная политика, использующая геометрический трансформатор и многоуровневый коннектор пространственных признаков для извлечения трехмерной информации непосредственно из эндоскопических изображений. Разработанный подход демонстрирует передовые результаты и обобщающую способность на реальных хирургических задачах, таких как завязывание узлов и диссекция органов, благодаря созданию масштабного фотореалистичного датасета Surgical3D. Позволит ли данная архитектура приблизить широкое клиническое внедрение систем хирургической робототехники с улучшенным пространственным восприятием?


Хирургическая Пространственная Загадка: Вызовы Трёхмерного Восприятия

Точность трехмерного понимания хирургической сцены имеет первостепенное значение для успешных манипуляций с использованием хирургических роботов, однако традиционные методы сталкиваются с серьезными трудностями, обусловленными сложностью операционного окружения. Неоднородность тканей, наличие крови и других биологических жидкостей, а также ограниченный обзор, создаваемый эндоскопической камерой, существенно затрудняют точную реконструкцию трехмерного пространства. Существующие подходы часто не способны обеспечить необходимую точность и скорость обработки данных в реальном времени, что критически важно для безопасной и эффективной роботизированной хирургии. В результате, разработка новых, более надежных и быстрых алгоритмов трехмерного понимания сцены является ключевой задачей для дальнейшего развития хирургической робототехники и повышения качества оказываемой медицинской помощи.

Эндоскопический обзор, широко используемый в минимально инвазивной хирургии, представляет собой значительные трудности для точного трехмерного воссоздания операционного поля. Ограниченное восприятие глубины, обусловленное отсутствием стереоскопического зрения и спецификой оптической системы эндоскопа, в сочетании с высокой степенью визуального зашумления — наличием крови, тканей, хирургических инструментов — существенно усложняет процесс определения расстояний до объектов и их точной ориентации в пространстве. Данные факторы приводят к неточностям в трехмерной реконструкции, что, в свою очередь, может повлиять на точность манипуляций роботизированными хирургическими системами и, как следствие, на исход операции. Разработка алгоритмов, способных эффективно справляться с этими сложностями, является ключевой задачей для повышения безопасности и эффективности роботизированной хирургии.

Существующие методы трехмерной реконструкции, применяемые в хирургической визуализации, зачастую базируются на итеративной оптимизации, требующей значительных вычислительных ресурсов. Этот подход, хотя и позволяет достичь высокой точности, существенно ограничивает возможность работы в режиме реального времени, что критически важно для роботизированных хирургических систем. Каждая итерация требует пересчета множества параметров, что приводит к задержкам и снижает оперативность манипуляций. В условиях, когда необходимо мгновенно реагировать на изменения в операционном поле, подобная вычислительная нагрузка становится серьезным препятствием для эффективного и безопасного проведения хирургических вмешательств, подчеркивая необходимость разработки более эффективных и быстрых алгоритмов реконструкции трехмерного пространства.

Обучение модели MASt3R на комбинации синтетических и реальных данных позволяет добиться более точной реконструкции хирургических инструментов и более полной визуализации органов, в то время как обучение только на синтетических данных приводит к неточной реконструкции и неполной визуализации, как показано на примере реконструкции сцен из набора данных Surgical3D.
Обучение модели MASt3R на комбинации синтетических и реальных данных позволяет добиться более точной реконструкции хирургических инструментов и более полной визуализации органов, в то время как обучение только на синтетических данных приводит к неточной реконструкции и неполной визуализации, как показано на примере реконструкции сцен из набора данных Surgical3D.

Прямая Геометрия: Новый Подход к Трехмерному Восприятию

Традиционные методы трехмерной реконструкции основываются на итеративных алгоритмах, требующих последовательной обработки данных и уточнений результатов. Мы предлагаем принципиально иной подход, переходя к моделированию прямой геометрической проекции, где стереоизображения напрямую отображаются в трехмерное представление. Данный подход позволяет избежать вычислительно затратных итераций, обеспечивая более быструю и эффективную реконструкцию геометрии сцены. Вместо последовательного построения модели, мы предлагаем однопроходный процесс, где 3D-координаты точек выводятся непосредственно из входных стереоданных, что потенциально снижает задержку и повышает производительность системы.

Набор данных Surgical3D представляет собой платформу для обучения и оценки моделей трехмерной реконструкции, состоящую из синтетических стереоскопических эндоскопических изображений и соответствующих им эталонных трехмерных карт. Этот синтетический набор данных позволяет проводить контролируемые эксперименты и обеспечивает наличие точных данных о глубине для каждого пикселя изображения, что критически важно для оценки точности и эффективности алгоритмов. Surgical3D обеспечивает надежную основу для количественной оценки различных подходов к 3D-восприятию, позволяя сравнивать производительность моделей и выявлять области для улучшения.

Модель MASt3R, представляющая собой решение для прямой 3D реконструкции, служит основой для нашей геометрии-трансформера. MASt3R обеспечивает эффективное начальное решение, демонстрируя время отклика (inference latency) в 56.2 миллисекунды. Данная модель позволяет напрямую преобразовывать стереоизображения в трехмерные представления без итеративных процессов реконструкции, что обеспечивает высокую скорость обработки данных и делает ее подходящей для приложений, требующих работы в реальном времени.

Геометрический трансформер эффективно извлекает трехмерные признаки из текущих эндоскопических наблюдений в различных задачах, генерируя промежуточные 3D-реконструкции без дополнительного обучения для каждой задачи, что демонстрируется на представленных изображениях с указанием этапа манипуляции.
Геометрический трансформер эффективно извлекает трехмерные признаки из текущих эндоскопических наблюдений в различных задачах, генерируя промежуточные 3D-реконструкции без дополнительного обучения для каждой задачи, что демонстрируется на представленных изображениях с указанием этапа манипуляции.

Геометрические Трансформеры: Усиление Понимания Хирургической Сцены

Для создания геометрического трансформатора была проведена дообучение (fine-tuning) модели-трансформера с использованием датасета Surgical3D. В процессе дообучения модель извлекает 3D-скрытые представления (latent embeddings) из стереоизображений хирургической сцены. Использование стереоизображений позволяет модели реконструировать трехмерную геометрию пространства, необходимую для понимания хирургической обстановки и последующего планирования действий робота-ассистента. Датасет Surgical3D содержит аннотированные стереопары изображений, что обеспечивает необходимую обучающую выборку для эффективной работы модели.

По сравнению с другими геометрическими трансформерами, такими как VGGT, наша разработка ориентирована на повышение эффективности. В ходе тестирования было зафиксировано время задержки (inference latency) в 56,2 мс, что значительно ниже, чем у VGGT — 140,4 мс. При этом, снижение времени обработки не привело к ухудшению точности результатов, что подтверждает возможность использования данной архитектуры в приложениях, требующих высокой производительности и надежности.

Архитектура обеспечивает надежную основу для роботизированных хирургических манипуляций, позволяя достичь точного управления и улучшенных результатов в таких задачах, как захват штифтов, завязывание узлов и внетелесная диссекция желчного пузыря. В ходе тестирования были достигнуты высокие показатели успешности выполнения всех трех задач, что подтверждает применимость данной системы в различных хирургических сценариях, требующих высокой точности и надежности роботизированного управления.

Экспериментальные настройки включали сбор данных для задач захвата штыря, завязывания узлов и диссекции желчного пузыря, при которых движения манипуляторов (обозначены жёлтыми и синими стрелками) и начальные положения объектов варьировались в пределах синей области для обеспечения разнообразия и последующей оценки эффективности различных методов.
Экспериментальные настройки включали сбор данных для задач захвата штыря, завязывания узлов и диссекции желчного пузыря, при которых движения манипуляторов (обозначены жёлтыми и синими стрелками) и начальные положения объектов варьировались в пределах синей области для обеспечения разнообразия и последующей оценки эффективности различных методов.

Пространственная Обобщаемость и Будущее Хирургической Робототехники

Геометрический трансформер, разработанный исследователями, демонстрирует выдающиеся способности к обобщению пространственной информации, что позволяет добиваться точной трехмерной реконструкции даже в незнакомых хирургических условиях. В отличие от традиционных методов, требующих обширных данных для обучения в каждой конкретной сцене, данный подход способен эффективно экстраполировать знания, полученные из одних хирургических изображений, на совершенно новые и непредсказуемые ситуации. Это достигается за счет уникальной архитектуры трансформера, позволяющей модели улавливать фундаментальные геометрические принципы, лежащие в основе трехмерного пространства, и применять их для создания детальных и точных моделей даже в условиях ограниченной видимости или неполных данных. Такая способность к обобщению существенно расширяет возможности применения робототехники в хирургии, открывая путь к более безопасным, точным и эффективным оперативным вмешательствам.

Улучшенное восприятие окружающей среды играет ключевую роль в повышении точности и безопасности хирургических манипуляций, выполняемых роботизированными системами. Традиционные методы часто сталкиваются с трудностями при распознавании анатомических структур и инструментов в динамичных хирургических условиях, что может приводить к неточностям. Новые алгоритмы, обеспечивающие более детальное и надежное трехмерное воссоздание операционного поля, позволяют роботизированным системам более эффективно планировать траектории движения инструментов, избегать критически важных тканей и выполнять сложные манипуляции с беспрецедентной аккуратностью. Это, в свою очередь, снижает риск осложнений, сокращает время операции и способствует более благоприятному исходу для пациента, открывая новые горизонты в минимально инвазивной хирургии.

Политика диффузии, в свою очередь, эффективно использует улучшенное восприятие, обеспечиваемое системой, для повышения надежности и адаптивности роботизированного управления в ходе хирургических вмешательств. В отличие от традиционных методов, полагающихся на жестко запрограммированные траектории, данная политика позволяет роботу гибко реагировать на непредвиденные изменения в операционном поле. Она функционирует, моделируя вероятностное распределение успешных действий, что позволяет роботу выбирать наиболее безопасные и эффективные движения даже в сложных и непредсказуемых ситуациях. Таким образом, достигается не только повышение точности хирургических манипуляций, но и значительное снижение риска ошибок, что открывает новые перспективы для автономной хирургической робототехники и персонализированной медицины.

Исследование демонстрирует, что создание надежных систем хирургической робототехники требует не просто реализации отдельных инструментов, а формирования целостной экосистемы, способной к адаптации и предвидению возможных сбоев. Как точно подмечал Дональд Кнут: «Прежде чем оптимизировать код, убедитесь, что он работает». В контексте хирургических манипуляций, предложенный Spatial Surgical Transformer (SST) — это не просто алгоритм, а попытка вырастить систему, способную к пространственному пониманию и точным движениям, используя трехмерные приоритеты и визуальное обучение. Эта работа подчеркивает, что фундаментальной задачей является не столько создание идеального кода, сколько обеспечение способности системы к самокоррекции и адаптации к непредсказуемым ситуациям, что соответствует философии системного подхода.

Что Дальше?

Представленная работа, хотя и демонстрирует впечатляющий прогресс в области обучения хирургических роботов, лишь слегка приоткрывает завесу над истинной сложностью манипулирования в трехмерном пространстве. Полагаться на “приоры” — значит заранее признать, что полная автономия недостижима, а любое действие — это лишь компромисс между идеалом и реальностью. Мониторинг, в этом контексте, — это не просто сбор данных, а осознанное предвидение неизбежного отклонения от заданной траектории.

Настоящая устойчивость системы не в безупречном исполнении запрограммированных действий, а в способности извлекать уроки из каждой неудачи. Инциденты — это не ошибки, а моменты истины, обнажающие хрупкость любой архитектуры. Следующий этап развития потребует не столько усовершенствования “геометрических трансформаторов”, сколько смещения фокуса на создание систем, способных к самодиагностике и адаптации в условиях непредсказуемости.

Попытки построить “идеального хирурга” обречены на провал. Необходимо признать, что системы — это не инструменты, а экосистемы. Их нельзя построить, только взрастить. Истинный прогресс заключается не в создании машин, имитирующих человека, а в создании машин, способных к эмерджентному поведению, непредсказуемому и, следовательно, по-настоящему устойчивому.


Оригинал статьи: https://arxiv.org/pdf/2603.03798.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-06 05:42