Иллюзия сверхчувствительности: как легко обмануть современные системы анализа видео

Оказывается, задача видео-поиска по запросу (VSR) решается даже без сложных механизмов пространственного сверх-восприятия, однако модель Cambrian-S, демонстрируя высокие результаты на бенчмарке VSC, на деле эксплуатирует специфические уязвимости данных - повторное воспроизведение одних и тех же видео приводит к обрушению её точности с 42% до 0%, указывая на зависимость от поверхностных признаков, а не от истинного понимания сцены.

Новое исследование показывает, что текущие бенчмарки для оценки пространственного сверхчувствительного анализа видео (spatial supersensing) уязвимы для простых решений и эксплуатируют специфические особенности тестовых данных.