3D-Сегментация без усилий: Новый подход к Gaussian Splatting

Автор: Денис Аветисян


Исследователи представили метод B3-Seg, позволяющий интерактивно сегментировать 3D-сцены, представленные в формате Gaussian Splatting, без необходимости обучения или предварительной разметки данных.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Система B3-Seg, итерируя процесс в течение двадцати шагов, обеспечивает камерно-независимую, безэталонную сегментацию 3D-графики с открытой лексикой, определяя оптимальные ракурсы из набора кандидатов, вычисленных на основе сферы, центрированной на предполагаемом центре объекта, и используя маски, полученные посредством Grounded SAM2 и CLIP переранжирования, для вычисления параметров Beta по уравнению <span class="katex-eq" data-katex-display="false">\mathrm{EIG}(v)</span> и <span class="katex-eq" data-katex-display="false">(e\_{i,1},e\_{i,0})</span>.
Система B3-Seg, итерируя процесс в течение двадцати шагов, обеспечивает камерно-независимую, безэталонную сегментацию 3D-графики с открытой лексикой, определяя оптимальные ракурсы из набора кандидатов, вычисленных на основе сферы, центрированной на предполагаемом центре объекта, и используя маски, полученные посредством Grounded SAM2 и CLIP переранжирования, для вычисления параметров Beta по уравнению \mathrm{EIG}(v) и (e\_{i,1},e\_{i,0}).

B3-Seg использует аналитический расчет информационного прироста и последовательные байесовские обновления для быстрой и точной сегментации без привязки к определенным точкам обзора.

Существующие методы интерактивной сегментации 3D Gaussian Splatting (3DGS) часто требуют предварительно заданных ракурсов камеры или дорогостоящей переподготовки, ограничивая их применение в задачах реального времени. В данной работе, представленной под названием ‘B$^3$-Seg: Camera-Free, Training-Free 3DGS Segmentation via Analytic EIG and Beta-Bernoulli Bayesian Updates’, предложен новый подход B$^3$-Seg, обеспечивающий быструю и точную сегментацию 3DGS без необходимости в предопределенных точках зрения или обучающих данных. Метод формулирует сегментацию как последовательное байесовское обновление на основе распределений Бета-Бернулли и активно выбирает следующий ракурс, используя аналитический расчет информационного прироста EIG. Способен ли B$^3$-Seg открыть новые возможности для интерактивного редактирования 3D-активов в режиме реального времени, обеспечивая при этом теоретически обоснованную эффективность сбора информации?


Постановка задачи: Сложность трехмерного понимания сцен

Точное и эффективное сегментирование трехмерных сцен является фундаментальным требованием для широкого спектра современных приложений, в частности, для робототехники и технологий дополненной и виртуальной реальности. В робототехнике, способность различать и классифицировать объекты в трехмерном пространстве позволяет роботам безопасно взаимодействовать с окружающей средой, планировать траектории и выполнять сложные задачи. В свою очередь, для приложений дополненной и виртуальной реальности, детальное понимание геометрии сцены необходимо для реалистичной интеграции виртуальных объектов в реальный мир и создания иммерсивного пользовательского опыта. Качество сегментации напрямую влияет на точность позиционирования виртуальных элементов и на общее восприятие среды пользователем, что делает данную задачу критически важной для развития этих технологий.

Традиционные методы сегментации трехмерных сцен часто сталкиваются с серьезными трудностями при обработке сложных окружений и требуют значительных вычислительных ресурсов. Проблема заключается в том, что алгоритмы, разработанные для упрощенных моделей, не способны эффективно обрабатывать большое количество объектов, перекрывающиеся геометрии и сложные текстуры, характерные для реальных сцен. Это приводит к снижению точности сегментации, увеличению времени обработки и, как следствие, к невозможности использования этих методов в приложениях, требующих работы в реальном времени, таких как автономная робототехника или дополненная реальность. В частности, алгоритмы, основанные на ручном определении признаков или использовании плотных графических моделей, оказываются непомерно затратными по вычислительным ресурсам, что делает их непрактичными для обработки больших трехмерных данных.

Существующие методы трехмерного понимания сцен часто сталкиваются с ограничениями в скорости и точности, что препятствует их эффективному использованию в приложениях реального времени. Несмотря на значительный прогресс в области компьютерного зрения, обработка сложных трехмерных данных требует значительных вычислительных ресурсов, что приводит к задержкам и снижению производительности. Это особенно критично для таких областей, как робототехника, где требуется немедленная реакция на изменяющуюся обстановку, и дополненная/виртуальная реальность, где плавность и реалистичность изображения напрямую зависят от скорости обработки данных. Неспособность обеспечить необходимую скорость и точность ограничивает возможности применения этих технологий в динамичных и интерактивных средах, стимулируя поиск новых, более эффективных алгоритмов и аппаратных решений.

Метод B3-Seg позволяет пользователю быстро и стабильно осуществлять 3D-сегментацию объектов в интерактивном 3D-редакторе посредством текстового ввода, кликов или перетаскивания.
Метод B3-Seg позволяет пользователю быстро и стабильно осуществлять 3D-сегментацию объектов в интерактивном 3D-редакторе посредством текстового ввода, кликов или перетаскивания.

B3-Seg: Быстрая и точная сегментация трехмерных Gaussian Splatting

B3-Seg представляет собой новую структуру для быстрой и точной сегментации 3D Gaussian Splatting. В отличие от традиционных методов, требующих ручной разметки данных и характеризующихся более высокой вычислительной сложностью, B3-Seg достигает сопоставимой точности при значительно меньших временных затратах. Фреймворк обеспечивает эффективную сегментацию 3D-сцен, позволяя получить результаты, сравнимые с более медленными, зависимыми от меток алгоритмами, но при этом значительно сокращая время обработки и вычислительные ресурсы.

В основе B3-Seg лежит вероятностное уточнение классификации каждого гауссова сплата посредством Beta-Bernoulli Байесовских обновлений. Данный подход позволяет оценивать вероятность принадлежности каждого сплата к определенному классу, используя бета-распределение в качестве априорного, а Бернулли-распределение — для моделирования вероятности принадлежности к классу. Обновление параметров бета-распределения происходит на основе наблюдаемых данных, что позволяет итеративно уточнять классификацию каждого сплата и, таким образом, повышать точность сегментации. P(y|x) \propto P(x|y)P(y), где P(y|x) — апостериорная вероятность класса y при наблюдении x, P(x|y) — правдоподобие, а P(y) — априорная вероятность.

В основе B3-Seg лежит стратегия выбора наиболее информативных видов для сегментации, основанная на аналитическом вычислении ожидаемого прироста информации (Expected Information Gain — EIG). EIG позволяет оценить, насколько информация, полученная при рассмотрении конкретного вида, снизит неопределенность в классификации каждого гауссова сплата. Вместо случайного выбора видов, B3-Seg использует EIG для определения оптимальной последовательности видов, максимизируя эффективность процесса сегментации и минимизируя количество необходимых видов для достижения заданной точности. Вычисление EIG производится аналитически, что позволяет избежать дорогостоящих методов Монте-Карло и обеспечивает высокую скорость работы алгоритма.

Внедрение описанных компонентов — алгоритма Beta-Bernoulli Байесовских обновлений и стратегического выбора информативных видов на основе аналитического Ожидаемого Информационного Усиления — позволило B3-Seg достичь времени выполнения всего цикла сегментации приблизительно в 12 секунд. Это значительно снижает вычислительные затраты по сравнению с более медленными методами, требующими ручной разметки данных, и одновременно обеспечивает сопоставимую, а в некоторых случаях и более высокую, точность сегментации трехмерных Гауссовых сплэтов. Эффективность достигается за счет вероятностной природы подхода и оптимизации процесса выбора видов, что позволяет сократить количество необходимых вычислений без потери качества.

Алгоритм B3-Seg самостоятельно выбирает оптимальные ракурсы на основе ожидаемого информационного прироста и уточняет трёхмерные метки с помощью бета-бернуллиевских обновлений, что позволяет ему работать за несколько секунд без необходимости в заранее заданных ракурсах или эталонных семантических метках.
Алгоритм B3-Seg самостоятельно выбирает оптимальные ракурсы на основе ожидаемого информационного прироста и уточняет трёхмерные метки с помощью бета-бернуллиевских обновлений, что позволяет ему работать за несколько секунд без необходимости в заранее заданных ракурсах или эталонных семантических метках.

Теоретические основы: Стабильность и эффективность алгоритма

Использование ожидаемого прироста информации (Expected Information Gain) в рамках данной системы обучения поддерживается принципом адаптивной монотонности. Этот принцип гарантирует, что процесс обучения демонстрирует стабильный прогресс, предотвращая колебания и обеспечивая устойчивое уменьшение неопределенности на каждом шаге. Адаптивная монотонность достигается за счет динамической корректировки стратегии сбора данных, ориентированной на максимизацию E[\mathcal{I}(X;Y)], где \mathcal{I}(X;Y) — взаимная информация между наблюдаемыми данными X и скрытыми переменными Y. В результате, система последовательно улучшает свою модель, избегая ситуаций, когда обучение застревает в локальных оптимумах или демонстрирует нестабильное поведение.

Адаптивная субмодулярность обеспечивает приближение к оптимальному выбору видов (views) при жадном алгоритме с точностью (1-1/e), что максимизирует прирост информации. Данное свойство гарантирует, что жадный алгоритм, выбирающий виды на основе их вклада в снижение неопределенности, не уступает по эффективности оптимальному решению более чем на 36.8\%\. Это достигается за счет адаптации функции оценки, учитывающей взаимосвязь между видами и их информативность. Гарантированная точность (1-1/e) является теоретическим пределом для жадных алгоритмов в задачах максимизации субмодулярных функций и подтверждает эффективность предложенного подхода к выбору наиболее информативных видов.

Постериорная энтропия является ключевой метрикой для количественной оценки неопределенности в байесовском выводе. Она представляет собой меру среднего количества информации, необходимого для описания случайной переменной после учета имеющихся данных. В рамках данной системы, постериорная энтропия рассчитывается как - \sum_{i} p(x_i) \log p(x_i) , где p(x_i) — вероятность конкретного состояния x_i после получения наблюдений. Высокое значение постериорной энтропии указывает на значительную неопределенность, что стимулирует дальнейшие байесовские обновления и сбор дополнительной информации для уменьшения этой неопределенности и уточнения вероятностного распределения.

Эффективность разработанного фреймворка повышается за счет механизма ранней остановки на основе энтропии. Данный механизм позволяет прекратить дальнейшие вычисления при достижении определенного порога снижения энтропии, что соответствует уменьшению неопределенности и стабилизации процесса обучения. Порог определяется на основе анализа скорости уменьшения энтропии на предыдущих итерациях, предотвращая избыточные вычисления и сокращая общее время работы алгоритма. Применение данного подхода особенно эффективно в задачах, где дальнейшие итерации приносят незначительное уменьшение энтропии и, следовательно, не вносят существенного вклада в качество модели. H(X) = - \sum_{i} p(x_i) \log p(x_i)

При использовании сцены LERF-Mask Teatime стратегия выбора видов на основе EIG последовательно демонстрирует наибольшее снижение энтропии на каждом шаге.
При использовании сцены LERF-Mask Teatime стратегия выбора видов на основе EIG последовательно демонстрирует наибольшее снижение энтропии на каждом шаге.

Расширение возможностей: Многоклассовая сегментация и перспективы развития

Архитектура B3-Seg демонстрирует потенциал к расширению возможностей сегментации изображений за счет поддержки многоклассовой сегментации, что достигается благодаря интеграции модели Дирихле-Категориального распределения. Данный подход позволяет системе не просто выделять объекты, но и классифицировать их по различным категориям, значительно повышая точность и детализацию анализа изображения. Использование модели Дирихле-Категориального распределения обеспечивает эффективное моделирование взаимосвязей между классами объектов, что особенно важно в сложных сценах с множеством перекрывающихся элементов. Это расширение открывает перспективы для более сложных задач компьютерного зрения, требующих детального понимания состава изображения и идентификации каждого объекта по его классу.

Интеграция текстово-обусловленного выделения областей с помощью Grounding DINO значительно расширяет контекст сегментации изображений. Этот подход позволяет системе не просто выделять объекты, но и учитывать текстовое описание, что обеспечивает более точное и осмысленное понимание сцены. Grounding DINO, используя возможности обработки естественного языка, предлагает регионы изображения, соответствующие заданному текстовому запросу, после чего эти области используются для уточнения сегментации. Такой симбиоз визуальной информации и лингвистического контекста повышает надежность и гибкость системы, позволяя ей эффективно работать в сложных и неоднозначных ситуациях, а также адаптироваться к различным типам запросов и задачам.

Для дальнейшей оптимизации точности сегментации, предложенная система использует механизм переранжирования масок на основе семантического сходства, реализуемый посредством CLIP. Этот подход позволяет отфильтровывать нерелевантные или ошибочные сегменты, сопоставляя визуальные признаки с текстовыми описаниями объектов. По сути, CLIP оценивает, насколько хорошо каждая предложенная маска соответствует заданному текстовому запросу или описанию сцены, повышая вероятность выбора наиболее семантически корректного сегмента. В результате достигается более точная и надежная сегментация, особенно в сложных сценах, где визуальные признаки могут быть неоднозначными или неполными. Такое переранжирование значительно улучшает качество получаемых масок, обеспечивая более адекватное представление объектов на изображении.

Сочетание разработанных методов открывает широкие перспективы для применения в областях, требующих продвинутого понимания визуальной информации. В частности, это касается робототехники, где точная сегментация объектов необходима для эффективной манипуляции с ними — например, робот может безопасно захватывать и перемещать предметы, точно определяя их границы и свойства. Помимо этого, данная технология способствует развитию систем понимания сцен, позволяя компьютерам анализировать изображения и видео, выделяя ключевые объекты и их взаимосвязи, что критически важно для автономных транспортных средств, систем видеонаблюдения и виртуальной реальности. Точность и надежность сегментации, достигаемые благодаря интеграции различных подходов, значительно повышают возможности автоматизированных систем в сложных и динамичных условиях.

В отличие от существующих методов 3DGS-сегментации, наш подход (B3-Seg) обеспечивает более четкую и полную сегментацию объектов, особенно в сложных, загроможденных сценах.
В отличие от существующих методов 3DGS-сегментации, наш подход (B3-Seg) обеспечивает более четкую и полную сегментацию объектов, особенно в сложных, загроможденных сценах.

Исследование представляет собой элегантное решение сложной задачи сегментации 3D Gaussian Splatting. B3-Seg демонстрирует, как можно достичь высокой точности и скорости без необходимости в предварительном обучении или размеченных данных, используя аналитический расчет Expected Information Gain и последовательные байесовские обновления. Этот подход напоминает о словах Фэй-Фэй Ли: «Искусственный интеллект — это не только о создании машин, которые могут думать, но и о создании машин, которые могут чувствовать». Подобно тому, как человек интуитивно выбирает наиболее информативные точки зрения для понимания объекта, B3-Seg использует EIG для активного выбора оптимальных ракурсов, обеспечивая гармоничное взаимодействие между алгоритмом и данными, что и является признаком глубокого понимания.

Куда Далее?

Представленная методика, безусловно, демонстрирует элегантность в обходе необходимости в предварительном обучении и размеченных данных. Однако, утонченность алгоритма не должна заслонять собой фундаментальные вопросы. Неизбежно возникает вопрос о границах применимости — насколько эффективно B3-Seg справляется с экстремально сложными сценами, насыщенными мелкими деталями или текстурами, неоднозначно интерпретируемыми алгоритмом байесовского обновления? Игнорирование этих нюансов было бы признаком поверхностного подхода.

Перспективы дальнейших исследований, по-видимому, лежат в плоскости расширения возможностей активного выбора видов. Необходимо исследовать, как можно интегрировать в процесс принятия решений более сложные метрики информативности, учитывающие не только ожидаемый прирост информации, но и когнитивные аспекты восприятия человеком. Достижение истинной гармонии между машинным зрением и человеческим восприятием — задача, требующая не только технических ухищрений, но и философского осмысления.

В конечном счете, истинная ценность B3-Seg, как и любого другого новаторского подхода, будет определяться не столько его текущими возможностями, сколько его способностью вдохновить на новые, более глубокие исследования. Иначе говоря, красота и последовательность алгоритма должны не только обеспечивать его работоспособность, но и служить фундаментом для будущих открытий.


Оригинал статьи: https://arxiv.org/pdf/2602.17134.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-02-21 07:44