Размывая границы: Новая стратегия идентификации кораблей по разным каналам связи

Автор: Денис Аветисян


Исследователи предлагают инновационный подход к идентификации кораблей, объединяющий данные из различных источников, таких как визуальные изображения и радиолокационные данные.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
На схеме представлена задача повторной идентификации кораблей с использованием различных модальностей, где последовательность операций включает три этапа, а объекты, имеющие одинаковый идентификатор, визуально объединены единым цветовым кодом.
На схеме представлена задача повторной идентификации кораблей с использованием различных модальностей, где последовательность операций включает три этапа, а объекты, имеющие одинаковый идентификатор, визуально объединены единым цветовым кодом.

В статье представлена методика Domain Representation Injection (DRI) для оптимизации признакового пространства и преодоления расхождений между модальностями данных в задаче кросс-модальной реидентификации кораблей.

Задача кросс-модальной идентификации судов осложняется значительными расхождениями между различными сенсорными модальностями. В работе, озаглавленной ‘Beyond Weight Adaptation: Feature-Space Domain Injection for Cross-Modal Ship Re-Identification’, предложен новый подход, основанный на оптимизации в пространстве признаков, позволяющий эффективно преодолеть эти расхождения. В частности, авторы предлагают стратегию Domain Representation Injection (DRI), калибрующую распределения признаков с помощью легковесного модуля, что обеспечивает передовые результаты при минимальном количестве обучаемых параметров. Сможет ли данный подход стать основой для создания надежных и всепогодных систем морского наблюдения и отслеживания?


Задача идентификации судов в условиях неопределенности

Традиционные методы идентификации судов, основанные на данных, полученных с одного сенсора, зачастую оказываются недостаточно эффективными в сложных погодных условиях и при плохой видимости. Например, визуальное обнаружение сильно ограничено в ночное время, при тумане или в условиях шторма. Аналогичные проблемы возникают и при использовании радаров, подверженных помехам и искажениям сигнала. Опора лишь на один источник информации делает систему уязвимой и снижает надежность отслеживания морских судов, что критично для обеспечения безопасности судоходства и контроля за деятельностью в морских зонах.

Использование разнородных данных, полученных с помощью оптических, тепловизионных и радиолокационных (SAR) сенсоров, открывает принципиально новые возможности для идентификации судов. В то время как каждый тип сенсора обладает своими преимуществами и недостатками, их совместное использование позволяет получить более полное и устойчивое представление об объекте. Однако интеграция этих разнородных данных представляет собой сложную задачу, поскольку они отличаются по своей природе, разрешению и чувствительности к различным факторам окружающей среды. Необходимо разрабатывать специализированные алгоритмы и методы обработки данных, способные эффективно объединять информацию из различных источников, компенсировать различия в характеристиках сенсоров и обеспечивать надежную идентификацию судов даже в сложных погодных условиях и при плохой видимости. Преодоление этих сложностей является ключевым шагом к созданию систем морского наблюдения, способных работать в любых условиях и обеспечивать высокую точность и надежность идентификации судов.

Эффективное объединение данных, полученных с оптических, тепловизионных и радиолокационных (SAR) сенсоров, имеет решающее значение для создания надежных систем отслеживания судов, функционирующих в любых погодных условиях. Комбинирование этих модальностей позволяет преодолеть ограничения, присущие каждому отдельному сенсору — оптические системы уязвимы к туману и темноте, тепловизоры могут быть подвержены помехам от тепла окружающей среды, а радиолокаторы — искажениям от волнения моря. Благодаря интеграции данных, система способна формировать более полное и точное представление о наблюдаемом объекте, обеспечивая непрерывное отслеживание даже в сложных ситуациях. Это, в свою очередь, значительно повышает осведомленность о морской обстановке и способствует улучшению безопасности судоходства, поисково-спасательных операций и контроля за соблюдением морского законодательства.

В отличие от базовой модели, подверженной влиянию фонового шума и помех SAR-изображений, предложенный метод DRI-S эффективно подавляет шум и фокусируется на структурной топологии корпуса судна, обеспечивая точную семантическую согласованность между RGB и SAR данными, что визуализируется на картах внимания последнего блока ViT.
В отличие от базовой модели, подверженной влиянию фонового шума и помех SAR-изображений, предложенный метод DRI-S эффективно подавляет шум и фокусируется на структурной топологии корпуса судна, обеспечивая точную семантическую согласованность между RGB и SAR данными, что визуализируется на картах внимания последнего блока ViT.

Визуальные модели-основы как надежный каркас

Визуальные фундаментальные модели (ВФМ) предоставляют предварительно обученные, обобщенные извлекатели признаков, что позволяет избежать необходимости в длительном обучении с нуля. Эти модели, обученные на обширных наборах данных изображений, способны выделять информативные признаки, применимые к широкому спектру задач компьютерного зрения. Использование ВФМ значительно сокращает время и вычислительные ресурсы, необходимые для разработки новых приложений, поскольку требуется лишь адаптация (fine-tuning) предварительно обученной модели к конкретной задаче, а не ее обучение с нуля. Это особенно полезно в ситуациях с ограниченным объемом размеченных данных, где обучение с нуля может оказаться невозможным или неэффективным.

Гипотеза платонических представлений предполагает, что модели визуального фундамента (VFMs) захватывают базовые статистические закономерности, присущие данным, а не просто запоминают их. Это означает, что VFMs формируют абстрактные, устойчивые представления о визуальном мире, которые не зависят от конкретного набора данных или задачи. В результате, эти модели способны к переносу знаний между различными модальностями — например, из визуальных данных в текстовые, или наоборот — поскольку они оперируют с фундаментальными статистическими принципами, общими для разных типов данных. Такой подход позволяет использовать предварительно обученные VFMs в широком спектре приложений, минимизируя необходимость в специализированном обучении для каждой новой задачи.

Разработка моделей визуального фундамента (VFMs) активно опирается на достижения в области больших языковых моделей (LLMs), что указывает на наличие общих принципов обучения в визуальной и текстовой областях. В частности, архитектурные решения, такие как использование трансформеров, успешно перенесены из LLMs в VFMs, демонстрируя их эффективность в обработке последовательностей данных, будь то текстовые токены или визуальные патчи. Более того, методы самообучения, широко применяемые в LLMs, такие как маскирование и предсказание, также адаптируются для обучения VFMs на больших объемах неразмеченных изображений. Это позволяет моделям извлекать полезные представления из визуальных данных без необходимости ручной разметки, что значительно снижает стоимость и трудоемкость обучения.

Предложенный Domain Representation Injector формирует специфические отклонения признаков <span class="katex-eq" data-katex-display="false"> \Delta\mathbf{x}^{\ell}_{attn} </span> и <span class="katex-eq" data-katex-display="false"> \Delta\mathbf{x}^{\ell}_{mlp} </span> посредством Offset Encoder и модуляторов, которые затем аддитивно интегрируются с входными и промежуточными признаками <span class="katex-eq" data-katex-display="false"> \mathbf{x}_{l-1} </span> и <span class="katex-eq" data-katex-display="false"> \mathbf{x}^{\prime}_{l} </span> для корректировки представления домена.
Предложенный Domain Representation Injector формирует специфические отклонения признаков \Delta\mathbf{x}^{\ell}_{attn} и \Delta\mathbf{x}^{\ell}_{mlp} посредством Offset Encoder и модуляторов, которые затем аддитивно интегрируются с входными и промежуточными признаками \mathbf{x}_{l-1} и \mathbf{x}^{\prime}_{l} для корректировки представления домена.

Инъекция доменных представлений для точной адаптации

Метод инъекции доменных представлений (Domain Representation Injection) заключается во внедрении информации, специфичной для конкретной области (домена), непосредственно в промежуточные признаки (features) вариационных функциональных моделей (VFMs). Это достигается путем добавления доменных представлений к существующим признакам на различных уровнях обработки внутри VFM, что позволяет модели адаптироваться к особенностям нового домена без переобучения всей сети. Внедрение осуществляется таким образом, чтобы сохранить и усилить существующие признаки, а не заменять их, что обеспечивает более эффективную передачу знаний между доменами и улучшает обобщающую способность модели.

Процесс извлечения доменных представлений осуществляется посредством легковесных Offset Encoder-ов, которые преобразуют входные данные в векторные представления, характеризующие специфику домена. Полученные доменные представления затем используются в качестве входных данных для Modulator-ов, реализующих Feature-wise Linear Modulation (FLM). FLM позволяет адаптировать промежуточные признаки VFMs (Vision Feature Maps) путем масштабирования и сдвига, управляемых доменными представлениями. Это позволяет динамически изменять характеристики признаков в зависимости от домена, обеспечивая более точную адаптацию модели к целевой области без значительного увеличения вычислительной сложности.

Обучение модели осуществляется с применением двух типов функции потерь: Triplet Loss и ID Loss. Triplet Loss направлена на повышение схожести представлений внутри одной идентичности и увеличение различий между представлениями разных идентичностей, что способствует более эффективному различению объектов. ID Loss, в свою очередь, обеспечивает сохранение идентичности при преобразовании домена. Комбинированное использование этих функций потерь позволило достичь передовых результатов, подтвержденных показателями Rank-1 в 95.6% при переходе от тепловизионных (TIR) изображений к видимым (VIS) и 91.3% при обратном переходе (VIS to TIR).

Предложенная схема Domain Representation Injection (DRI) использует замороженную модель VFM (инициализированную DINOv3) и обучаемый Domain Representation Injector для адаптивной модификации признаков путем внедрения доменно-специфичных отклонений <span class="katex-eq" data-katex-display="false">\Delta x</span> в слои Attention и MLP, оптимизируясь с помощью Triplet Loss и ID Loss.
Предложенная схема Domain Representation Injection (DRI) использует замороженную модель VFM (инициализированную DINOv3) и обучаемый Domain Representation Injector для адаптивной модификации признаков путем внедрения доменно-специфичных отклонений \Delta x в слои Attention и MLP, оптимизируясь с помощью Triplet Loss и ID Loss.

DINOv3: Эффективный и мощный каркас VFM

В основе нашего подхода лежит DINOv3 — самообучающийся Vision Transformer, выбранный благодаря его высокой способности к обобщению. DINOv3 предварительно обучается на большом объеме неразмеченных данных, что позволяет ему эффективно адаптироваться к различным задачам и данным, даже при ограниченном количестве размеченных примеров. Использование самообучения снижает зависимость от трудоемкой ручной разметки и повышает робастность модели к новым, ранее не встречавшимся ситуациям. Это особенно важно в задачах, где доступ к большим объемам размеченных данных ограничен или невозможен.

В архитектуре DINOv3 для повышения стабильности обучения и улучшения механизмов внимания используются нормализация слоев (Layer Normalization) и многоголовое самовнимание (Multi-Head Self-Attention). Нормализация слоев применяется для стабилизации распределения активаций в каждом слое сети, что ускоряет сходимость и позволяет использовать более высокие скорости обучения. Многоголовое самовнимание позволяет модели одновременно учитывать различные части входного изображения, выделяя важные признаки и зависимости между ними. Это достигается за счет параллельного применения нескольких механизмов внимания, каждый из которых фокусируется на разных аспектах входных данных, что повышает общую выразительность модели и ее способность к обобщению.

Визуализация паттернов внимания с использованием Eigen-CAM предоставляет возможность качественной оценки и понимания областей, на которых фокусируется модель. Eigen-CAM, основанный на анализе собственных векторов матрицы внимания, позволяет определить, какие части входного изображения оказывают наибольшее влияние на принятие решений моделью. Это достигается путем построения карт внимания, которые наглядно отображают области изображения, наиболее важные для конкретной задачи. Такой подход позволяет не только оценить адекватность фокусировки модели, но и выявить потенциальные проблемы, такие как нежелательное внимание к фоновым элементам или игнорирование ключевых объектов.

Исследование абляции показало, что введение отклонения <span class="katex-eq" data-katex-display="false">\Delta\mathbf{x}</span> после нормализации слоя (Post-Norm) обеспечивает эффективную калибровку последующих модулей, в то время как введение до нормализации (Pre-Norm) может быть подавлено статистикой нормализации, а применение только к остаточным связям (Residual Only) лишь сдвигает выходное распределение, не влияя на извлечение признаков.
Исследование абляции показало, что введение отклонения \Delta\mathbf{x} после нормализации слоя (Post-Norm) обеспечивает эффективную калибровку последующих модулей, в то время как введение до нормализации (Pre-Norm) может быть подавлено статистикой нормализации, а применение только к остаточным связям (Residual Only) лишь сдвигает выходное распределение, не влияя на извлечение признаков.

Параметрически эффективная тонкая настройка для масштабируемости

Для решения проблемы высоких вычислительных затрат, связанных с тонкой настройкой крупных моделей визуального представления (VFMs), исследователи обращаются к методам параметрически эффективной тонкой настройки (PEFT). Эти методы направлены на адаптацию предварительно обученных моделей к новым задачам, изменяя лишь небольшую часть параметров, что значительно снижает потребность в вычислительных ресурсах и времени обучения. Вместо обновления всех параметров модели, PEFT-подходы фокусируются на обучении небольшого числа дополнительных или декомпозированных параметров, сохраняя при этом большую часть исходных знаний, накопленных моделью во время предварительного обучения. Такой подход позволяет эффективно адаптировать большие модели к конкретным задачам, делая их более доступными и практичными для широкого круга приложений.

Метод LoRA, основанный на гипотезе о внутренней размерности данных, позволяет значительно сократить количество обучаемых параметров при адаптации больших визуальных моделей. Вместо обновления всех весов модели, LoRA разлагает изменения весов на матрицы низкого ранга. Это означает, что вместо хранения и обновления полных матриц весов, система оперирует с гораздо меньшими по размеру матрицами, что существенно снижает вычислительные затраты и требования к памяти. Такой подход базируется на предположении, что изменения, необходимые для адаптации модели к новым задачам, лежат в подпространстве низкой размерности, и, следовательно, можно эффективно представить эти изменения с помощью разложения матриц низкого ранга. В результате, LoRA позволяет достичь сопоставимой или даже превосходящей производительности, используя лишь небольшую часть обучаемых параметров по сравнению с полной настройкой модели.

Адаптерные модули представляют собой эффективный подход к адаптации больших визуальных моделей (VFM), позволяющий достичь передовых результатов с минимальным количеством обучаемых параметров. В отличие от традиционных методов, требующих десятки миллионов параметров, например, TransOSS с 86.00M, адаптерные модули добавляют лишь небольшое количество внешних параметров к существующей VFM. Исследования показали, что использование адаптеров позволяет добиться конкурентоспособной производительности, достигая mAP в 57.9% на датасете HOSS-ReID и 51.3% на CMShipReID (TIR to VIS) всего с 1.44 миллионами параметров. Такой подход значительно снижает вычислительные затраты и упрощает процесс адаптации моделей к новым задачам, делая его особенно привлекательным для масштабных приложений.

В отличие от методов, основанных на перепараметризации весов <span class="katex-eq" data-katex-display="false"> \Delta W </span> (например, LoRA) или добавлении новых весовых матриц, предложенный подход Feature-based PEFT изменяет распределение признаков с помощью внешних сигналов, что позволяет сохранить общие знания без изменения структуры весов исходной модели.
В отличие от методов, основанных на перепараметризации весов \Delta W (например, LoRA) или добавлении новых весовых матриц, предложенный подход Feature-based PEFT изменяет распределение признаков с помощью внешних сигналов, что позволяет сохранить общие знания без изменения структуры весов исходной модели.

Исследование демонстрирует элегантный подход к решению проблемы разрыва между модальностями в идентификации судов. Авторы предлагают метод Domain Representation Injection (DRI), тонко калибруя распределения признаков и достигая впечатляющих результатов с минимальным количеством обучаемых параметров. Это подтверждает, что истинное мастерство заключается не в сложности, а в умении достичь максимальной эффективности при минимальных затратах. Как однажды заметил Эндрю Ын: «Машинное обучение — это искусство того, чтобы заставить компьютеры учиться без явного программирования». Эта фраза отражает суть представленной работы — стремление к интеллектуальной системе, способной адаптироваться и обобщать знания, подобно человеческому разуму.

Куда Далее?

Представленная работа, безусловно, демонстрирует элегантность решения в области кросс-модальной идентификации судов. Однако, подобно хорошо настроенному инструменту, она лишь обнажает сложность задачи, а не разрешает её полностью. Оптимизация пространства признаков, осуществляемая посредством инъекции доменных представлений, — шаг вперед, но вопрос о фундаментальной несовместимости модальностей остаётся открытым. Какова истинная природа этой «модальной пропасти»? Не является ли стремление к её «заполнению» лишь паллиативным решением, маскирующим более глубокие принципиальные различия в способах представления информации?

Будущие исследования, вероятно, сосредоточатся на разработке более гибких архитектур, способных не просто калибровать распределения признаков, но и динамически адаптироваться к особенностям каждой модальности. Необходимо отойти от представления о фиксированных «представлениях» и перейти к пониманию информации как процесса, а не как статического объекта. Интересным направлением представляется исследование возможностей интеграции методов самообучения и контрастивного обучения для формирования более робастных и обобщающих представлений.

И, конечно, не стоит забывать о практической стороне вопроса. Эффективность предложенного подхода в реальных условиях, с учетом шумов, помех и неполноты данных, требует тщательной проверки. Подобно искусному художнику, необходимо не только создать красивую картину, но и убедиться в её устойчивости к воздействию времени и внешних факторов. Иначе элегантность рискует обернуться хрупкостью.


Оригинал статьи: https://arxiv.org/pdf/2512.20892.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-26 22:23