Отслеживание любой точки: Новый подход к визуальному трекингу

Автор: Денис Аветисян


Исследователи представили TAPFormer — инновационную систему, объединяющую данные с традиционных и событийных камер для более точного и быстрого отслеживания объектов.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Архитектура TAPFormer объединяет кадры и события посредством механизма временного асинхронного слияния и модулей локального взвешенного кросс-модального слияния для получения высокочастотных временных признаков, которые затем уточняются временным вниманием и декодируются в многомасштабные признаки, используемые в трансформерном модуле оптимизации для итеративного предсказания траекторий отслеживания и состояний окклюзии.
Архитектура TAPFormer объединяет кадры и события посредством механизма временного асинхронного слияния и модулей локального взвешенного кросс-модального слияния для получения высокочастотных временных признаков, которые затем уточняются временным вниманием и декодируются в многомасштабные признаки, используемые в трансформерном модуле оптимизации для итеративного предсказания траекторий отслеживания и состояний окклюзии.

Предлагается новый фреймворк для устойчивого отслеживания произвольной точки, использующий асинхронное объединение данных с камер и событийных датчиков, а также представлен новый набор данных для сравнительного анализа.

Отслеживание произвольной точки в видеоряде представляет собой сложную задачу компьютерного зрения, требующую высокой точности и способности к долгосрочному анализу движения. В данной работе представлен ‘TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events’, новый фреймворк, эффективно объединяющий информацию из стандартных кадров и событийных камер для устойчивого и высокочастотного отслеживания точек. Ключевой инновацией является механизм Transient Asynchronous Fusion (TAF), моделирующий временную эволюцию между дискретными кадрами с помощью непрерывных обновлений от событийной камеры, что позволяет преодолеть разрыв между низкой частотой кадров и высокой частотой событий. Может ли предложенный подход стать основой для создания более надежных и эффективных систем визуального SLAM и автономной навигации?


Точность отслеживания: вызов, который не прощает ошибок

Точное и надежное отслеживание ключевых точек играет фундаментальную роль в широком спектре современных технологий. В робототехнике, например, оно необходимо для создания систем, способных ориентироваться в сложных условиях и взаимодействовать с окружающей средой. В дополнение к этому, в сферах дополненной и виртуальной реальности (AR/VR) — неотъемлемая часть создания иммерсивного и реалистичного пользовательского опыта. Более того, развитие автономной навигации, будь то для беспилотных автомобилей или дронов, напрямую зависит от способности точно определять и отслеживать положение объектов в пространстве, обеспечивая безопасное и эффективное перемещение. Таким образом, повышение точности и надежности алгоритмов отслеживания точек является ключевой задачей, определяющей будущее многих технологических направлений.

Традиционные методы отслеживания точек, широко используемые в робототехнике и компьютерном зрении, демонстрируют существенные ограничения в сложных условиях эксплуатации. Низкая освещенность, быстрые движения объекта и размытие изображения, вызванное этими факторами, приводят к снижению точности и надежности отслеживания. Существующие алгоритмы, основанные на анализе последовательных кадров, испытывают трудности при недостатке информации или при быстром изменении изображения, что делает их непригодными для реальных приложений, требующих стабильной и непрерывной работы в динамичной среде. Неспособность эффективно справляться с этими проблемами ограничивает возможности автономной навигации, дополненной реальности и других передовых технологий, где точное и устойчивое отслеживание является ключевым элементом.

Существующие подходы к отслеживанию точек часто демонстрируют неспособность эффективно объединить данные, получаемые от традиционных камер и событийных камер, что негативно сказывается на производительности в динамичных сценах. Традиционные камеры, фиксирующие изображения с определенной частотой, испытывают трудности при быстром движении или низкой освещенности, приводя к размытию и потере отслеживаемых объектов. В отличие от них, событияные камеры реагируют на изменения яркости отдельных пикселей, обеспечивая высокую временную разрешающую способность и устойчивость к размытию. Однако, простое объединение данных этих двух типов камер часто не приводит к желаемым результатам из-за различий в принципах работы и форматах данных. Эффективная интеграция требует разработки новых алгоритмов, способных синхронизировать и коррелировать информацию, полученную от обоих источников, что является сложной задачей, ограничивающей возможности систем отслеживания в реальных условиях.

В отличие от фрейм-ориентированного отслеживания, страдающего от недостатка временной информации, и event-ориентированного, не способного уловить мелкие пространственные детали, наш подход к слиянию позволяет восстанавливать долгосрочные и высокоточные траектории точек, как показано на шкале ошибок отслеживания в пикселях.
В отличие от фрейм-ориентированного отслеживания, страдающего от недостатка временной информации, и event-ориентированного, не способного уловить мелкие пространственные детали, наш подход к слиянию позволяет восстанавливать долгосрочные и высокоточные траектории точек, как показано на шкале ошибок отслеживания в пикселях.

TAPFormer: Архитектура слияния для надежного отслеживания

TAPFormer представляет собой унифицированную архитектуру для отслеживания любой точки объекта, использующую как стандартные RGB-кадры, так и потоки событий (event streams). Такое объединение данных позволяет максимально эффективно интегрировать информацию из обоих источников, что особенно важно в сценариях с быстрым движением или низкой освещенностью. В отличие от подходов, использующих только один тип данных, TAPFormer обеспечивает более надежное и точное отслеживание за счет совместного анализа визуальной информации из RGB-кадров и данных о моментальных изменениях яркости, предоставляемых потоками событий. Данная архитектура позволяет отслеживать точки объекта независимо от условий освещения и скорости движения, что повышает общую надежность системы отслеживания.

Архитектура TAPFormer использует Transient Asynchronous Fusion (TAF) для эффективной интеграции данных, поступающих с RGB-камер и датчиков событий. TAF позволяет обрабатывать данные с различной частотой и асинхронно, что особенно важно для сохранения временной информации. В отличие от традиционных методов, которые требуют синхронизации или интерполяции данных, TAF напрямую использует временные различия между кадрами и событиями, что позволяет более точно отслеживать быстро движущиеся объекты и сохранять детализацию траектории. Данный подход обеспечивает сохранение ключевой временной информации, необходимой для точного отслеживания, поскольку события фиксируют изменения яркости пикселей с высокой временной разрешающей способностью, дополняя информацию, полученную из стандартных видеокадров.

Ключевым компонентом TAPFormer является механизм кросс-модального взвешенного слияния (Cross-Modal Locally Weighted Fusion), который адаптированно объединяет признаки, полученные из RGB-кадров и потоков событий. Вместо простого усреднения или конкатенации, данный подход динамически определяет значимость каждого модального источника в каждой локальной области изображения. Это достигается путем вычисления весов, отражающих информативность каждого модального источника — в областях с высокой активностью событий, веса для потоков событий повышаются, в то время как в областях с преобладанием текстур и деталей в RGB-кадрах, приоритет отдается признакам, полученным из этих кадров. Такая локальная адаптация позволяет TAPFormer эффективно использовать сильные стороны каждой модальности и компенсировать их слабости, что способствует повышению точности отслеживания.

Результаты экспериментов на датасете InivTAP демонстрируют, что TAPFormer достигает передовых показателей в задаче отслеживания. Модель показала средний Jaccard Index (AJ) равный 0.78, что на 36.4% превышает результат CoTracker3 и на 35.1% — FETAP. Данные результаты подтверждают эффективность предложенной архитектуры и методов слияния данных, обеспечивающих повышенную точность отслеживания в динамичных сценах.

В то время как традиционные методы отслеживания объектов дают сбои при быстром движении (красные рамки) или в областях с похожей текстурой (желтые рамки), наш метод, основанный на объединении данных, обеспечивает стабильное и точное отслеживание в обеих ситуациях.
В то время как традиционные методы отслеживания объектов дают сбои при быстром движении (красные рамки) или в областях с похожей текстурой (желтые рамки), наш метод, основанный на объединении данных, обеспечивает стабильное и точное отслеживание в обеих ситуациях.

Наборы данных для обучения и оценки: основа надежности

Синтетический набор данных FE-FastKub предоставляет высокочастотные изображения и потоки событий, что позволяет эффективно обучать модели отслеживания и предсказания (TAP). Набор данных состоит из сгенерированных сцен, оптимизированных для обучения алгоритмов, которым требуется большое количество данных для достижения высокой точности. Высокая частота кадров и наличие потоков событий позволяют TAP-моделям эффективно учиться обнаруживать и отслеживать быстро движущиеся объекты, а также адаптироваться к различным условиям освещения и динамическим изменениям в сцене. Использование FE-FastKub в качестве обучающего набора данных значительно сокращает время обучения и позволяет достичь высокой производительности моделей TAP.

Наборы данных DrivTAP и InivTAP представляют собой реальные данные, полученные в процессе вождения в различных условиях и сложных сценариях. DrivTAP включает в себя записи с камер и лидаров, собранные в городских и загородных условиях, обеспечивая разнообразие дорожных ситуаций. InivTAP фокусируется на сложных погодных условиях, таких как дождь, туман и снег, а также на динамичном освещении, включая ночные записи. Использование этих наборов данных критически важно для оценки устойчивости и обобщающей способности моделей отслеживания, поскольку они позволяют проверить производительность алгоритмов в условиях, максимально приближенных к реальным.

Комбинация представленных наборов данных и модели TAPFormer позволила добиться значительного улучшения точности отслеживания объектов. На тестовом наборе данных EDS модель TAPFormer достигла значения Expected Feature Age (EFA) равного 0.704, что превосходит результаты всех сравниваемых аналогов. EFA является метрикой, оценивающей возраст отслеживаемых признаков, и более низкое значение указывает на более точное и стабильное отслеживание. Данный результат демонстрирует эффективность предложенного подхода к обучению и оценке моделей отслеживания в сложных условиях.

Использование представленных наборов данных — FE-FastKub, DrivTAP и InivTAP — позволяет модели TAPFormer обучаться извлечению устойчивых признаков и эффективно обобщать полученные знания на неизученные сценарии. Синтетический набор FE-FastKub обеспечивает высокоскоростное обучение, в то время как реальные данные из DrivTAP и InivTAP, включающие сложные дорожные ситуации и разнообразные условия, критически важны для оценки надежности и способности модели к адаптации. Совместное использование этих данных в процессе обучения демонстрирует значительное улучшение точности отслеживания, что подтверждается достижением значения Expected Feature Age (EFA) в 0.704 на наборе EDS, превосходя все сравнимые методы.

Сравнение результатов алгоритма InivTAP в различных последовательностях и режимах обработки (кадровый, событийный, гибридный и эталонный) демонстрирует эффективность предложенного подхода.
Сравнение результатов алгоритма InivTAP в различных последовательностях и режимах обработки (кадровый, событийный, гибридный и эталонный) демонстрирует эффективность предложенного подхода.

Влияние и перспективы развития: взгляд в будущее

Разработанная архитектура TAPFormer обладает значительным потенциалом для интеграции в системы визуально-инерциальной одометрии (VIO), такие как VINS-Mono и SDEVO. Усовершенствованные возможности отслеживания, обеспечиваемые TAPFormer благодаря одновременной обработке кадров и событий, позволяют существенно повысить точность и надежность VIO-систем в сложных условиях. Внедрение TAPFormer позволяет более эффективно оценивать положение и ориентацию устройства в пространстве, минимизируя ошибки, связанные с быстрым движением, недостаточным освещением или наличием динамических объектов в сцене. Это особенно важно для приложений, требующих высокой точности позиционирования, например, в робототехнике, автономных транспортных средствах и дополненной реальности.

Архитектура TAPFormer демонстрирует значительный прогресс в понимании сцен и трехмерной реконструкции благодаря уникальной возможности объединять данные, полученные с помощью традиционных кадров и событийных камер. Использование как стандартных изображений, фиксирующих сцену с определенной частотой, так и событийных данных, регистрирующих изменения яркости каждого пикселя, позволяет системе более точно и оперативно реагировать на динамические изменения в окружающей среде. Такой подход существенно повышает устойчивость к быстрым движениям и изменениям освещенности, что особенно важно для приложений, требующих надежной работы в сложных условиях, например, для робототехники и автономной навигации. В результате, TAPFormer способен создавать более детальные и точные трехмерные модели окружения, что открывает новые возможности для анализа и взаимодействия с миром.

В ходе экспериментов по одновременной локализации и построению карты (SLAM) разработанная система TAPFormer продемонстрировала передовые результаты, достигнув значения AUCv, равного 0.89, и показателя успешности (Sξ) в 0.81. Эти показатели свидетельствуют о значительном улучшении точности и надежности отслеживания в динамичных условиях по сравнению с существующими подходами. Полученные данные подтверждают эффективность предложенного метода в решении сложных задач визуальной навигации и 3D-реконструкции, открывая перспективы для его применения в робототехнике и системах автономного управления.

Дальнейшие исследования TAPFormer направлены на расширение его возможностей обработки более сложных сцен и интеграцию с другими модулями восприятия, что позволит достичь целостного понимания окружающей среды. Разработчики планируют усовершенствовать алгоритм для эффективной работы в условиях повышенной динамичности, плотной застроенности и недостаточной освещенности. Особое внимание будет уделено объединению данных, полученных от TAPFormer, с информацией от лидаров, радаров и других сенсоров, что позволит создать более точную и надежную модель окружающего мира. Такой мультисенсорный подход открывает перспективы для широкого спектра применений, включая автономную навигацию роботов, системы помощи водителю и создание интерактивных виртуальных сред.

Интерфейс аннотирования для задачи TAP позволяет вручную размечать данные, выбирая наиболее четкие визуальные сигналы из RGB-кадров или кадров, реконструированных из событий, с помощью панели визуализации, информации о точках и интерактивных элементов управления.
Интерфейс аннотирования для задачи TAP позволяет вручную размечать данные, выбирая наиболее четкие визуальные сигналы из RGB-кадров или кадров, реконструированных из событий, с помощью панели визуализации, информации о точках и интерактивных элементов управления.

Эта работа с TAPFormer, конечно, впечатляет, но давайте будем честны: объединение фреймов и событий — это всего лишь попытка заставить железо работать быстрее, чем оно умеет. В итоге, сложная архитектура, куча параметров… И все ради того, чтобы отслеживать точку? Вспоминается, как однажды пытались оптимизировать bash-скрипт, а он превратился в монстра Франкенштейна. Как сказал Дэвид Марр: «Проблема заключается не в создании умных машин, а в создании машин, которые кажутся умными». Именно это и происходит здесь — создается иллюзия прорывной технологии, пока реальный технический долг растет в геометрической прогрессии. Но, похоже, сейчас это назовут AI и получат инвестиции.

Что дальше?

Представленный подход, безусловно, элегантен. TAPFormer, объединяя данные с фреймовых и событийных камер, демонстрирует, как извлечь максимум информации из асинхронных потоков. Однако, как и всегда, дьявол кроется в деталях деплоя. Производительность в лабораторных условиях — это, конечно, приятно, но стоит лишь подумать о масштабировании на реальном оборудовании, о перегреве, о шуме… и оптимизация превратится в ночную кошмар. И не стоит забывать, что любой новый датасет — это лишь временное облегчение, пока прод не подкинет что-нибудь действительно неожиданное.

Настоящая проблема, как обычно, не в алгоритме, а в данных. Ограниченность существующих наборов данных для событийных камер — это не просто недостаток, это закономерность. Пока не появится достаточно размеченных данных, отражающих все многообразие реальных сценариев, SLAM-системы, даже основанные на глубоком обучении, будут обречены на повторение одних и тех же ошибок. И, да, «кросс-модальное внимание» звучит красиво, но кто-нибудь проверил, как оно работает при одновременном попадании в тень и ярком свете?

В конечном итоге, TAPFormer — это ещё один шаг к автоматизации, ещё один уровень абстракции над сложной реальностью. Но не стоит обольщаться. Автоматизация не спасёт нас. Она просто создаст новые, более изощренные способы сломаться. И когда это произойдёт, кто-нибудь снова будет сидеть ночью, копаясь в логах и проклиная все эти “революционные” технологии.


Оригинал статьи: https://arxiv.org/pdf/2603.04989.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-08 18:02