Восстановление 3D-изображений эндоскопических операций: новый взгляд

Автор: Денис Аветисян

Исследователи представили EndoVGGT — систему, повышающую точность и надежность 3D-реконструкции хирургических сцен, полученных с помощью эндоскопа.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

В рамках предложенной архитектуры EndoVGGT, модуль DeGAT обогащает признаки, извлечённые из DINOv2, посредством взаимодействия токенов камеры как в глобальном, так и внутрикадровом масштабе, что позволяет предсказывать карты глубины с использованием DPT head и оценивать позы камеры посредством многослойного перцептрона для реконструкции сцены, при этом достигается согласованность за счёт разработанной композитной функции потерь.

В основе разработки лежит модуль внимания на графах, учитывающий деформации, для более точной оценки глубины и реконструкции 3D-моделей.

Восстановление точной трехмерной геометрии деформируемых мягких тканей в хирургических сценариях остается сложной задачей из-за проблем с текстурой, отражениями и окклюзиями. В данной работе представлена система ‘EndoVGGT: GNN-Enhanced Depth Estimation for Surgical 3D Reconstruction’ — инновационный фреймворк, использующий модуль графового внимания, учитывающий деформации тканей. Предложенный подход позволяет динамически строить семантические графы в пространстве признаков, эффективно улавливая долгосрочные корреляции между когерентными областями тканей и обеспечивая повышение точности реконструкции на 24.6% (PSNR) и 9.1% (SSIM) по сравнению с современными методами. Способна ли данная архитектура стать основой для создания более надежных и точных систем навигации и поддержки принятия решений в хирургической робототехнике?

Хирургическая сцена: вызов для алгоритмов

Восстановление трехмерной модели хирургической сцены на основе эндоскопических изображений имеет решающее значение для разработки систем навигации и обучения хирургов, однако существующие методы сталкиваются с серьезными трудностями при работе с деформируемыми тканями и ограниченным углом обзора. Проблема заключается в том, что мягкие биологические ткани постоянно меняют свою форму под воздействием инструментов, что делает точное восстановление геометрии крайне сложной задачей. Кроме того, эндоскопические камеры часто обеспечивают лишь частичную видимость операционного поля, что усугубляет неопределенность и требует сложных алгоритмов для заполнения недостающей информации и построения полной и достоверной трехмерной модели. Преодоление этих препятствий позволит создать более эффективные и безопасные инструменты для хирургической практики и обучения.

Традиционные методы реконструкции хирургической сцены требуют индивидуальной оптимизации для каждого конкретного случая, что существенно ограничивает их применимость в новых операционных или при использовании различных хирургических инструментов. Вместо универсальной модели, способной адаптироваться к меняющимся условиям, существующие алгоритмы вынуждены заново калиброваться и настраиваться для каждого отдельного сценария. Это связано с тем, что геометрия операционного поля, освещение и характеристики используемого оборудования могут значительно различаться. Подобная зависимость от конкретной сцены не только усложняет процесс подготовки к операции, но и препятствует созданию масштабируемых систем хирургической навигации и обучения, способных эффективно функционировать в различных медицинских учреждениях и с разными наборами инструментов.

Основная сложность в понимании хирургической сцены заключается в эффективном представлении постоянно меняющейся геометрии операционного поля. Ткани, подвергаясь воздействию инструментов и физиологическим процессам, деформируются в реальном времени, создавая сложную и нелинейную динамику. Существующие методы часто не способны адекватно отслеживать эти изменения, что приводит к неточностям в реконструкции трехмерной модели. Успешное решение этой проблемы требует разработки алгоритмов, способных не только фиксировать текущую форму органов и тканей, но и предсказывать их поведение при различных манипуляциях, учитывая эластичность, вязкость и другие физические свойства. Точное моделирование динамической геометрии является критически важным для создания реалистичных симуляторов хирургических вмешательств и разработки систем навигации, повышающих точность и безопасность операций.

Модуль DeGAT агрегирует информацию от соседей (обозначенных как ★ и ∘) для точной оценки глубины, что позволяет получать более четкие границы и улучшенную структурную согласованность изображений органов и инструментов, как показано на примере выделенной области (c-d).

EndoVGGT: универсальная основа для реконструкции

EndoVGGT использует в качестве основы проверенную геометрически-обоснованную модель VGGT, что позволяет отказаться от трудоемкой процедуры оптимизации для каждой отдельной сцены. В VGGT геометрия сцены предварительно оценивается и используется для направления процесса реконструкции, в то время как EndoVGGT наследует эту основу и расширяет её, обеспечивая обобщение на различные хирургические сцены без необходимости индивидуальной настройки параметров для каждой из них. Это достигается за счет использования предварительно обученных компонентов и адаптивных механизмов, позволяющих системе эффективно обрабатывать данные и реконструировать геометрию без затрат, связанных с оптимизацией для каждой новой сцены.

Ключевым нововведением в EndoVGGT является интеграция модуля DeGAT (Deformation-aware Graph Attention), предназначенного для динамического построения локальных окрестностей при реконструкции деформируемых хирургических сцен. DeGAT использует механизм внимания (Attention Mechanism) и агрегацию признаков для интеллектуального представления геометрии сцены, что позволяет эффективно сохранять резкие границы глубины даже при значительных деформациях тканей. Динамическое построение графа позволяет EndoVGGT адаптироваться к изменяющейся хирургической обстановке, обеспечивая точную реконструкцию в сложных условиях.

Модуль DeGAT использует механизм внимания (Attention Mechanism) и агрегацию признаков для интеллектуального представления геометрии сцены. Механизм внимания позволяет динамически взвешивать вклад различных признаков, выделяя наиболее релевантные для реконструкции. Агрегация признаков объединяет информацию из соседних областей, что позволяет DeGAT эффективно обрабатывать сложные и деформируемые хирургические сцены. В частности, DeGAT использует взвешенное суммирование признаков, определяемое матрицей внимания, для создания более точного и детализированного представления геометрии, что повышает качество реконструкции и позволяет сохранять четкие границы объектов.

Динамическое построение графа в EndoVGGT обеспечивает адаптацию к изменяющейся хирургической среде посредством алгоритма Dynamic Graph Construction. В отличие от статических графов, используемых в традиционных методах, EndoVGGT формирует граф на основе текущих входных данных, определяя связи между точками на основе их пространственной близости и визуальных характеристик. Это позволяет системе эффективно обрабатывать деформации тканей и изменения в геометрии сцены, поддерживая точность реконструкции даже при активных движениях и деформациях во время операции. Алгоритм позволяет EndoVGGT адаптировать структуру графа в реальном времени, обеспечивая более надежное представление геометрии и улучшая производительность реконструкции в динамических хирургических условиях.

Эксперименты на наборах данных EndoNeRF и SCARED показали, что средние показатели производительности стабильны во всех оцениваемых подмножествах.

Проверка обобщающей способности на разнообразных данных

Фреймворк EndoVGGT демонстрирует высокую способность к обобщению без дополнительного обучения (Zero-Shot Generalization), успешно работая с наборами данных, такими как SCARED и EndoSLAM, без какой-либо последующей настройки параметров. Это означает, что модель способна эффективно обрабатывать изображения из новых хирургических сред, не требуя предварительного обучения на специфичных данных этого окружения, что значительно упрощает и ускоряет процесс внедрения в клиническую практику. Данная особенность позволяет избежать трудоемкой процедуры сбора и разметки данных для каждого нового хирургического сценария.

В основе EndoVGGT лежит использование FiLM (Feature-wise Linear Modulation) и механизмов кросс-внимания для эффективного управления процессом реконструкции изображения с учетом контекста входного изображения. FiLM позволяет модулировать признаки, полученные из предварительно обученной сети, на основе контекстной информации, что позволяет адаптировать процесс реконструкции к специфическим характеристикам каждого изображения. Кросс-внимание, в свою очередь, позволяет модели фокусироваться на наиболее релевантных областях входного изображения, улучшая точность и качество реконструкции, особенно в сложных и зашумленных условиях. Данный подход позволяет EndoVGGT эффективно использовать знания, полученные на одном наборе данных, для реконструкции изображений из других, не виденных ранее, наборов данных, обеспечивая высокую производительность в задачах обобщения.

Количественная оценка результатов работы EndoVGGT на различных эндоскопических наборах данных, проводимая с использованием метрик PSNR (Peak Signal-to-Noise Ratio), SSIM (Structural Similarity Index) и LPIPS (Learned Perceptual Image Patch Similarity), демонстрирует превосходство над существующими методами. В частности, на наборе данных SCARED EndoVGGT достиг значения PSNR в 34.348, SSIM — 0.939, а LPIPS составил 0.240. Эти показатели подтверждают эффективность предложенного подхода в задачах реконструкции и улучшения качества эндоскопических изображений.

Отсутствие необходимости дообучения модели EndoVGGT значительно упрощает ее внедрение в новых хирургических условиях. В ходе тестов на наборе данных SCARED, методика демонстрирует улучшение показателя SSIM на 24.8% при обобщении без дообучения, а также увеличение PSNR на 144%. Применение DeGAT дополнительно снижает показатель LPIPS на 15.8%, что свидетельствует о повышении качества реконструируемого изображения и более точной передаче деталей.

Исследование абляции показало, что количество ближайших соседей <span class="katex-eq" data-katex-display="false">K</span> существенно влияет на производительность модели SCARED. — Исследование абляции показало, что количество ближайших соседей $K$ существенно влияет на производительность модели SCARED.

Влияние на хирургические инновации и за их пределы

Возможность создания точных и обобщенных трехмерных реконструкций хирургической сцены, реализованная в EndoVGGT, способна радикально изменить подходы к планированию и обучению хирургов. Данная технология позволяет создавать детальные виртуальные модели операционного поля, что дает возможность хирургам заранее прорабатывать сложные операции, оценивать потенциальные риски и выбирать оптимальную тактику вмешательства. Более того, подобные трехмерные реконструкции открывают новые горизонты в хирургическом обучении, позволяя студентам и начинающим специалистам отрабатывать навыки в реалистичной виртуальной среде, повышая их уверенность и компетентность перед реальными операциями. Использование EndoVGGT для создания персонализированных моделей, основанных на данных конкретного пациента, обещает значительное повышение точности и безопасности хирургических вмешательств.

Разработанная платформа EndoVGGT открывает возможности для оперативной навигации в ходе хирургических вмешательств, предоставляя хирургам расширенные инструменты визуализации и поддержки принятия решений. Система способна формировать трехмерную модель операционного поля в реальном времени, что позволяет точно определять расположение инструментов и тканей, а также прогнозировать результаты манипуляций. Такая поддержка особенно ценна в сложных процедурах, где точная ориентация и понимание анатомии критически важны. Подобная технология не только повышает безопасность операций, но и способствует снижению инвазивности и сокращению времени восстановления пациентов, представляя собой значительный шаг вперед в развитии роботизированной и минимально инвазивной хирургии.

Принципы динамического построения графов и агрегации признаков на основе механизма внимания, разработанные в рамках EndoVGGT, обладают значительным потенциалом за пределами хирургической визуализации. Данный подход к обработке данных, позволяющий эффективно структурировать и анализировать сложные сцены, может быть успешно применен в различных областях компьютерного зрения, например, в задачах автономной навигации роботов, распознавании объектов в условиях изменяющейся освещенности и реконструкции трехмерных моделей из неполных данных. Способность системы адаптироваться к новым условиям и эффективно извлекать наиболее важные признаки открывает возможности для создания более надежных и интеллектуальных систем, способных к решению широкого спектра задач в робототехнике и анализе изображений.

Разработка EndoVGGT значительно продвигает область хирургических систем, успешно преодолевая проблему обобщения — ключевое препятствие для создания надежных и адаптируемых инструментов. Традиционные системы часто демонстрируют снижение производительности при столкновении с незнакомыми хирургическими сценариями или оборудованием. EndoVGGT, благодаря своей способности к построению динамических графов и агрегации признаков на основе механизма внимания, обеспечивает устойчивость к изменениям в операционном поле. Это позволяет создавать системы, которые не просто функционируют в заданных условиях, но и способны адаптироваться к новым, непредвиденным ситуациям, повышая безопасность и эффективность хирургических вмешательств. Таким образом, EndoVGGT открывает путь к созданию более интеллектуальных и гибких хирургических систем, способных к самообучению и адаптации, что является важным шагом на пути к автоматизации и повышению качества медицинской помощи.

Представленная работа демонстрирует неизбежную эволюцию любой, казалось бы, прорывной технологии в сторону практической реализации, а значит, и накопления технического долга. EndoVGGT, стремясь к более точной 3D реконструкции хирургических сцен, лишь подтверждает эту закономерность. Улучшение точности за счет использования графовых нейронных сетей и учета деформаций — это не революция, а очередная итерация в вечной гонке за оптимизацией. Как справедливо отмечает Фэй-Фэй Ли: «Искусственный интеллект должен быть полезным для людей, а не просто впечатляющим». EndoVGGT, фокусируясь на практической задаче улучшения визуализации хирургического поля, в определенной степени соответствует этому принципу, хотя и не решает проблему фундаментальной сложности восприятия трехмерного пространства.

Что дальше?

Представленная работа, безусловно, демонстрирует улучшение точности реконструкции хирургической сцены. Однако, не стоит забывать старую истину: каждая «самовосстанавливающаяся» система просто ещё не сломалась достаточно сильно. Устойчивость к артефактам, вызванным неожиданными движениями эндоскопа или изменениями освещения, остаётся проблемой. Рано или поздно, производственный отдел найдёт способ заставить даже самую элегантную теорию дать сбой.

Перспективы, конечно, имеются. Интеграция с системами реального времени, чтобы хирурги могли видеть не просто «красивую картинку», а надёжную, отказоустойчивую модель — это привлекательно. Но не стоит очаровываться. Пока документация по обработке краевых случаев остаётся формой коллективного самообмана, результаты будут ограничены. Особенно в тех ситуациях, когда «баг воспроизводится — значит, у нас стабильная система».

Вероятно, будущие исследования сосредоточатся на повышении робастности алгоритмов к шуму и деформациям тканей. Но, судя по опыту миграций, любая новая «революционная» технология неизбежно станет техническим долгом. И в конечном итоге, всегда найдётся способ заставить даже самую продвинутую систему давать сбой.

Оригинал статьи: https://arxiv.org/pdf/2603.24577.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-27 04:47