Медицинская визуализация обретает голос: новая модель для 3D-анализа и интерактивной сегментации
![В предложенной архитектуре визуально-языковая модель, подобная LLaVA, обрабатывает трехмерные объемы данных и генерирует текст, при этом активация токена [SEG] инициирует передачу скрытого состояния в модуль сегментации SAM2, где оно объединяется с визуальными подсказками - точками или ограничивающими рамками - для формирования окончательной маски сегментации.](https://arxiv.org/html/2601.09879v1/x2.png)
Исследователи представили MedVL-SAM2 — систему, объединяющую возможности понимания языка и точного 3D-сегментирования медицинских изображений для улучшения диагностики и взаимодействия с данными.








